Main Content

针对 Slurm、PBS Pro、OpenPBS、LSF、TORQUE 进行配置

按照这些说明配置您的 MATLAB® Parallel Server™ 安装,以使用内置集群类型与 Slurm、PBS Pro®、OpenPBS、LSF® 和 TORQUE 一起使用。

您可以使用内置集群类型或 Generic 集群类型创建集群配置文件。作为最佳实践,请尽可能使用内置集群类型。

在以下情况下,您必须使用 Generic 集群配置文件:

  • 您连接到没有内置集群类型的集群

  • MATLAB 客户端和集群节点没有共享文件系统

  • MATLAB 客户端计算机无法直接向第三方调度器提交作业,或者

  • 您需要完全自定义如何将并行作业提交到集群

要使用 Generic 集群类型配置集群,请参阅使用通用调度器接口进行配置

创建集群配置文件并验证安装

此过程验证并行计算产品是否在您的集群上正确安装和配置。

步骤 1:创建集群配置文件

在此步骤中,您将创建一个集群配置文件以供后续步骤使用。

  1. 启动集群配置文件管理器。在主页选项卡的环境区域中,选择并行 > 创建和管理集群

  2. 通过选择添加集群配置文件 > Slurm(或 LSFPBS ProOpenPBSGrid EngineTorque,视情况而定),在集群配置文件管理器中创建一个新的配置文件。

  3. 在列表中选择新的配置文件后,点击重命名并将配置配置文件名称编辑为 InstallTest。按 Enter

  4. 在“属性”选项卡中,提供以下字段的设置:

    1. 描述字段设置为 For testing installation

    2. JobStorageLocation 设置为您希望存储作业和任务数据的位置(如果您有共享文件系统,则所有工作进程机器都可以访问)。

      注意

      JobStorageLocation 不应该由运行不同版本的并行计算产品共享;集群上的每个版本都应该有自己的 JobStorageLocation

    3. 在许可限制范围内,将 NumWorkers 字段设置为您想要运行验证测试的工作进程数量。

    4. ClusterMatlabRoot 设置为工作进程机器要执行的 MATLAB 的安装位置。

    5. 设置 SubmitArguments 以包含特定集群和调度器所需的任何其他命令参数。

    6. 如果您正在使用 LSF,请将 OperatingSystem 设置为您的工作进程机器的操作系统。

    7. 设置 HasSharedFilesystem 来指示客户端和工作进程是否可以共享相同的数据位置。

      该对话框看起来应该像这样,或者对于 Slurm、PBS Pro、OpenPBS 或 TORQUE 调度器略有不同。

      Cluster Profile Manager with the InstallTest cluster profile selected. The cluster properties for the InstallTest cluster are shown in the right pane.

  5. 点击完成以保存您的集群配置文件。

步骤 2:验证集群配置文件

在此步骤中,您将验证您的集群配置文件,从而验证您的安装。您可以指定验证个人配置文件时要使用的工作进程数量。如果您没有在验证选项卡中指定工作进程的数量,那么验证将尝试使用与属性选项选项卡上的 NumWorkers 属性所指定值一样多的工作进程。您可以指定较少数量的工作进程来验证您的配置,而无需占用整个集群。

  1. 如果尚未打开,请从 MATLAB 桌面启动集群配置文件管理器。在主页选项卡的环境区域中,选择并行 > 创建和管理集群

  2. 在列表中选择您的集群配置文件。

  3. 点击验证选项卡。

  4. 使用复选框选择所有测试或验证阶段的子集,并指定验证您的配置文件时要使用的工作进程数量。

  5. 点击验证

验证结果选项选项卡显示输出。下图显示了通过所有验证测试的配置文件的结果。

Cluster Profile Manager with the local cluster profile selected. The validation results for the local cluster are shown in the right pane.

注意

如果您的验证未通过,请联系 MathWorks 安装支持团队

如果您的验证通过,您现在就拥有一个可以在其他并行应用程序中使用的有效配置文件。您可以对您的配置文件进行任何适合您的应用程序的修改,例如 NumWorkersRangeAttachedFilesAdditionalPaths 等。

要为其他用户保存您的配置文件,请选择该配置文件并点击导出,然后将您的配置文件保存到方便位置的文件中。稍后,运行 集群配置文件管理器时,其他用户可以通过点击导入来导入您的配置文件。

Windows 群集上配置 LSF 调度器

如果您的集群已设置为使用 mpiexec 和 smpd,并且您使用兼容的 MPI 实现库(如 matlabroot \toolbox\parallel\mpi\mpiLibConf.m 中所定义),则可以将 Parallel Computing Toolbox™ 软件与您现有的配置结合使用。但是,如果您的集群上没有 mpiexec 但您想使用它,那么您可以使用并行计算产品附带的 mpiexec 软件。

有关 mpiexec 和 smpd 的更多信息,请参阅 MPICH 主页。要查看该页面上的用户指南和安装说明,请选择文档 > 用户文档

在以下说明中,matlabroot 指的是 MATLAB 安装位置。

要使用 mpiexec 分配作业,smpd 服务必须在用于运行 MATLAB 工作进程的所有节点上运行。

注意

smpd 可执行文件不支持从映射驱动器运行。使用本地安装或可执行文件的完整 UNC 路径名。Microsoft Microsoft® Windows Vista® 不支持网络共享安装中的 smpd 可执行文件,因此对于 Windows Vista 安装必须是本地的。

  1. 以具有管理员权限的用户身份登录。

  2. 在 Windows® 命令提示符中输入以下内容来启动 smpd:

    matlabroot\bin\win64\smpd -install

    此命令安装该服务并启动它。只要该服务保持安装,它将在每次节点启动时启动。

  3. 如果这是一台工作进程机器,并且您没有在其上运行安装程序来安装 MATLAB Parallel Server 软件(例如,如果您从共享安装运行 MATLAB Parallel Server 软件),请在 Windows 命令提示符中执行以下命令。

    matlabroot\bin\matlab.bat -install_vcrt
    

    此命令安装使用您的调度器运行作业所需的 Microsoft 运行时库。

  4. 如果您在集群节点上使用 Windows 防火墙,请在 Windows 命令提示符中执行以下命令。

    matlabroot\toolbox\parallel\bin\addMatlabToWindowsFirewall.bat
    

    此命令将 MATLAB 添加为允许的程序。如果您正在使用其他防火墙,则必须对其进行配置以做出类似的调整。

  5. 以将在此节点上提交作业执行的用户身份登录。

  6. 通过输入以下内容注册此用户以使用 mpiexec:

    matlabroot\bin\win64\mpiexec -register
  7. 对将在此机器上运行作业的所有用户重复步骤 5-6。

  8. 在集群集中的所有 Windows 节点上重复所有这些步骤。

在服务器上配置 Windows 防火墙

如果您在集群节点上使用 Windows 防火墙,

  1. 以具有管理权限的用户身份登录。

  2. 在 Windows 命令提示符中执行以下操作。

    matlabroot\toolbox\parallel\bin\addMatlabToWindowsFirewall.bat
    

    此命令将 MATLAB 添加为允许的程序。如果您正在使用其他防火墙,则必须对其进行类似的配置。