解决云端扩展问题
问题
当 MATLAB® Parallel Server™ 无法在云端运行的集群中创建新工作者时,将触发扩展错误。
当集群用户尝试在集群上运行作业时,作业会因类似以下错误而失败:
Error using parallel.Job/submit (line 304)
An error occurred during execution of Task with ID 1.
Caused by:
Job was cancelled because the cluster does not have enough workers to
meet the minimum of the job's NumWorkersRange property: <num_workers>. 可能的解决方案
根据您的 MATLAB Parallel Server 集群是在 Amazon® Web Services (AWS®) 还是 Microsoft® Azure® 上运行,请尝试以下解决方案之一。
排查 AWS 集群的扩展问题
若需排查 Amazon Web 服务 (AWS) 集群中的问题,请参阅 AWS 文档中的 Amazon EC2 自动扩展故障排除。
有关配额相关问题,请参阅 AWS 文档中的自动扩展资源和组的配额部分。
如果您的问题与基础镜像缺失有关,请参阅以下部分。
AWS 基础映像不可用
如果您的 MATLAB Parallel Server 集群使用由 MathWorks® 提供的基准 Amazon 机器映像 (AMI),则在基准映像被替换后,该集群将无法创建新的工作单元。MathWorks 会定期更新基准映像以包含最新的安全补丁。此问题不会影响运行时间少于一个月的集群。
要运行需要更多工作单元的任务,您可以部署一个使用最新 AMI 的新集群。或者,您可以通过将某个 MATLAB 版本的 AMI 复制到您自己的 AWS 帐户,然后基于此 AMI 创建集群来规避此问题。
注意
将 AMI 保存至您的帐户会产生费用。为节省成本,当不再需要时请删除 AMI 和快照。
以下步骤将指导您如何将特定 MATLAB 版本的 AMI 复制到您的 AWS 帐户。
在 GitHub® 上 MATLAB Parallel Server on AWS 的
Releases文件夹中,选择您要复制的版本。请转到 README 文件中的 "Deploy Cluster in a Custom Region" 部分。
点击本节中的 AWS 快速创建链接,即可打开一个预填充字段的 CloudFormation 模板。
将 AWS 控制台中的 AWS 区域设置为您想要的区域。
部署模板以复制 AMI。复制过程需要 5 到 15 分钟。
当您的 AMI 准备就绪后,请使用输出选项卡中的 LaunchClusterWithCopiedAmi 链接,在您指定的区域部署集群。您还可以在 AWS 帐户中与他人共享此链接或自定义 AMI ID,以便他们使用相同的 AMI 部署集群。
排查 Azure 集群的扩展问题
要诊断 Azure 上的集群部署错误,您必须从活动日志中检索错误代码,并按照以下步骤进行故障排除。
登录 Azure 门户。
导航至 Azure Services 下的 Monitor。
在监视器页面上,在左侧窗格中选择 Activity Log。
为您的集群选择订阅。
添加 Resource Group 筛选器以选择包含您集群的资源组,并添加 Resource 筛选器以选择集群本身。
设置时间范围和事件严重性过滤器以缩小事件范围。
应用过滤器后,点击某个事件即可查看其错误代码和消息,以了解问题的详细信息。
有关常见错误代码的说明及问题解决指南,请参阅 Azure 文档中的 Azure Virtual Machine Scale Sets Troubleshooting。
有关活动日志的更多详细信息,请参阅 Activity Log in Azure Monitor 中的 Azure 文档。
另请参阅
主题
- Resize Clusters Automatically (Cloud Integrations)
- 解决网络连接缓慢的问题