针对 Slurm、PBS Pro、OpenPBS、LSF、TORQUE 进行配置
按照这些说明配置您的 MATLAB® Parallel Server™ 安装,以使用内置集群类型与 Slurm、PBS Pro®、OpenPBS、LSF® 和 TORQUE 一起使用。
您可以使用内置集群类型或 Generic
集群类型创建集群配置文件。作为最佳实践,请尽可能使用内置集群类型。
在以下情况下,您必须使用 Generic
集群配置文件:
您连接到没有内置集群类型的集群
MATLAB 客户端和集群节点没有共享文件系统
MATLAB 客户端计算机无法直接向第三方调度器提交作业,或者
您需要完全自定义如何将并行作业提交到集群
要使用 Generic
集群类型配置集群,请参阅使用通用调度器接口进行配置。
创建集群配置文件并验证安装
此过程验证并行计算产品是否在您的集群上正确安装和配置。
步骤 1:创建集群配置文件
在此步骤中,您将创建一个集群配置文件以供后续步骤使用。
启动集群配置文件管理器。在主页选项卡的环境区域中,选择并行 > 创建和管理集群。
通过选择添加集群配置文件 > Slurm(或 LSF、PBS Pro、OpenPBS、Grid Engine 或 Torque,视情况而定),在集群配置文件管理器中创建一个新的配置文件。
在列表中选择新的配置文件后,点击重命名并将配置配置文件名称编辑为
InstallTest
。按 Enter。在“属性”选项卡中,提供以下字段的设置:
将描述字段设置为
For testing installation
。将 JobStorageLocation 设置为您希望存储作业和任务数据的位置(如果您有共享文件系统,则所有工作进程机器都可以访问)。
注意
JobStorageLocation
不应该由运行不同版本的并行计算产品共享;集群上的每个版本都应该有自己的JobStorageLocation
。在许可限制范围内,将 NumWorkers 字段设置为您想要运行验证测试的工作进程数量。
将 ClusterMatlabRoot 设置为工作进程机器要执行的 MATLAB 的安装位置。
设置 SubmitArguments 以包含特定集群和调度器所需的任何其他命令参数。
如果您正在使用 LSF,请将 OperatingSystem 设置为您的工作进程机器的操作系统。
设置 HasSharedFilesystem 来指示客户端和工作进程是否可以共享相同的数据位置。
该对话框看起来应该像这样,或者对于 Slurm、PBS Pro、OpenPBS 或 TORQUE 调度器略有不同。
点击完成以保存您的集群配置文件。
步骤 2:验证集群配置文件
在此步骤中,您将验证您的集群配置文件,从而验证您的安装。您可以指定验证个人配置文件时要使用的工作进程数量。如果您没有在验证选项卡中指定工作进程的数量,那么验证将尝试使用与属性选项选项卡上的 NumWorkers
属性所指定值一样多的工作进程。您可以指定较少数量的工作进程来验证您的配置,而无需占用整个集群。
如果尚未打开,请从 MATLAB 桌面启动集群配置文件管理器。在主页选项卡的环境区域中,选择并行 > 创建和管理集群。
在列表中选择您的集群配置文件。
点击验证选项卡。
使用复选框选择所有测试或验证阶段的子集,并指定验证您的配置文件时要使用的工作进程数量。
点击验证。
验证结果选项选项卡显示输出。下图显示了通过所有验证测试的配置文件的结果。
注意
如果您的验证未通过,请联系 MathWorks 安装支持团队。
如果您的验证通过,您现在就拥有一个可以在其他并行应用程序中使用的有效配置文件。您可以对您的配置文件进行任何适合您的应用程序的修改,例如 NumWorkersRange
、AttachedFiles
、AdditionalPaths
等。
要为其他用户保存您的配置文件,请选择该配置文件并点击导出,然后将您的配置文件保存到方便位置的文件中。稍后,运行 集群配置文件管理器时,其他用户可以通过点击导入来导入您的配置文件。
在 Windows 群集上配置 LSF 调度器
如果您的集群已设置为使用 mpiexec 和 smpd,并且您使用兼容的 MPI 实现库(如 matlabroot
\toolbox\parallel\mpi\mpiLibConf.m
中所定义),则可以将 Parallel Computing Toolbox™ 软件与您现有的配置结合使用。但是,如果您的集群上没有 mpiexec 但您想使用它,那么您可以使用并行计算产品附带的 mpiexec 软件。
有关 mpiexec 和 smpd 的更多信息,请参阅 MPICH 主页。要查看该页面上的用户指南和安装说明,请选择文档 > 用户文档。
在以下说明中,matlabroot
指的是 MATLAB 安装位置。
要使用 mpiexec 分配作业,smpd 服务必须在用于运行 MATLAB 工作进程的所有节点上运行。
注意
smpd
可执行文件不支持从映射驱动器运行。使用本地安装或可执行文件的完整 UNC 路径名。Microsoft Microsoft® Windows Vista® 不支持网络共享安装中的 smpd
可执行文件,因此对于 Windows Vista 安装必须是本地的。
以具有管理员权限的用户身份登录。
在 Windows® 命令提示符中输入以下内容来启动 smpd:
matlabroot\bin\win64\smpd -install
此命令安装该服务并启动它。只要该服务保持安装,它将在每次节点启动时启动。
如果这是一台工作进程机器,并且您没有在其上运行安装程序来安装 MATLAB Parallel Server 软件(例如,如果您从共享安装运行 MATLAB Parallel Server 软件),请在 Windows 命令提示符中执行以下命令。
matlabroot\bin\matlab.bat -install_vcrt
此命令安装使用您的调度器运行作业所需的 Microsoft 运行时库。
如果您在集群节点上使用 Windows 防火墙,请在 Windows 命令提示符中执行以下命令。
matlabroot\toolbox\parallel\bin\addMatlabToWindowsFirewall.bat
此命令将 MATLAB 添加为允许的程序。如果您正在使用其他防火墙,则必须对其进行配置以做出类似的调整。
以将在此节点上提交作业执行的用户身份登录。
通过输入以下内容注册此用户以使用 mpiexec:
matlabroot\bin\win64\mpiexec -register
对将在此机器上运行作业的所有用户重复步骤 5-6。
在集群集中的所有 Windows 节点上重复所有这些步骤。
在服务器上配置 Windows 防火墙
如果您在集群节点上使用 Windows 防火墙,
以具有管理权限的用户身份登录。
在 Windows 命令提示符中执行以下操作。
matlabroot\toolbox\parallel\bin\addMatlabToWindowsFirewall.bat
此命令将 MATLAB 添加为允许的程序。如果您正在使用其他防火墙,则必须对其进行类似的配置。