为 Slurm 安装 MATLAB Parallel Server
如果您有一个带有 Slurm 的集群,请按照这些说明使用 MATLAB® Parallel Server™ 将 MATLAB 与您的调度器集成。如果您的集群中没有现有的调度器,请参阅:使用网络许可证管理器安装 MATLAB 作业调度器。
这些说明将指导您完成以下任务:
将 MATLAB 与 Slurm 集成后,您可以通过 Parallel Computing Toolbox™ 的桌面 MATLAB 客户端会话访问集群中的工作单元。工作单元是 MATLAB 计算引擎,通常对应于核心。
这些步骤中的设置使用网络许可证管理器。
激活您的 MATLABParallel Server 许可证
要安装 MATLAB Parallel Server,您必须激活您的许可证。要激活您的 MATLABParallel Server 许可证:
登录管理员的 MathWorks 帐户。
选择您的 MATLAB Parallel Server 许可证,然后点击安装并激活选项卡。
在最右侧的相关任务下,选择激活并获取许可证文件。
填写所需信息。此信息必须指主机许可证管理器的计算机。在这些指令中,它是主节点。有关详细信息,请参阅安装许可证管理器。
填写信息后,下载或通过电子邮件发送许可证文件并复制文件安装密钥。这些将在后续过程中使用。
注意
试用无需激活。请联系您的销售代表以获取许可证文件和文件安装密钥。
获取安装文件
为了节省时间并消除为集群中的每台计算机进行基于安装程序的下载过程的需要,请在安装之前下载安装文件。这样做有利于在大量计算机上进行安装。如果您有权访问许可证的管理员帐户,则可以使用安装程序下载文件而不安装它们。如果没有,请联系您的许可证管理员以获取安装文件的副本。有关详细信息,请参阅下载产品而不安装。使用安装程序下载文件时,请选择以下选项:
为集群节点选择适当的操作系统。
选择所有要下载的产品。MATLAB Parallel Server 无法运行需要未安装产品的作业。
MATLAB Parallel Server 有三个服务器端组件:
许可证管理器,主机每个工作单元使用的 MATLABParallel Server 许可证。有关详细信息,请参阅安装许可证管理器。
您的第三方作业调度器,它在主节点上运行并管理集群上的作业。您可以将这个调度器与 MATLAB Parallel Server 集成。有关详细信息,请参阅安装许可证管理器和配置集群。
MATLABParallel Server,在计算节点上运行。有关详细信息,请参阅在计算节点上安装软件。
安装许可证管理器
选择一个计算机节点来主机许可证管理器。对于安装,请使用上一步中的离线安装程序。有关离线安装程序的详细信息,请参阅在离线计算机上安装产品。
从获取的安装文件中启动 MATLAB 安装程序获取安装文件。
选择高级选项 > 我要安装网络许可证管理器。
在许可证文件步骤中,浏览到您的
license.lic
文件(从激活您的 MATLABParallel Server 许可证)。按照提示继续完成网络管理器的安装。有关该过程的更多信息,请参阅在许可证服务器上安装许可证管理器
启动许可证管理器。
在计算节点上安装软件
此过程类似于安装许可证管理器。有关离线安装程序的详细信息,请参阅在离线计算机上安装产品。
从获取的安装文件中启动 MATLAB 安装程序获取安装文件。
选择高级选项 > 我有文件安装密钥并按照提示继续。
选择所有产品。或者,为了节省空间,仅安装集群用户获得许可的产品。
使用来自主节点的
license.dat
文件。您可以从matlabroot/etc
文件夹获取此文件,其中matlabroot
是 MATLAB 安装文件夹。
为了获得最佳性能,请在每个节点上本地安装。但是,您也可以安装在网络共享位置。
您可以通过在命令行界面中运行以下命令来测试安装和许可。matlabroot
是 MATLAB 安装文件夹。filename
是写入日志文件的位置,例如临时位置。您必须具有在此位置的写入权限。
matlabroot/toolbox/parallel/bin/checkLicensing -logfile filename
注意
当您想要为 Slurm 配置 MATLAB Parallel Server 时,无需启动 mjs 服务。
在本地桌面上安装软件
要使用 MATLABParallel Server,您必须使用运行 MATLAB 和 Parallel Computing Toolbox 的本地桌面。在您想要向集群提交作业的本地桌面上安装您获得许可的 MathWorks® 产品,包括 Parallel Computing Toolbox。有关此步骤的帮助,请参阅安装和许可。
您启动的任何 MATLAB 集群工作单元都使用动态许可:他们可以使用您在 MATLAB 客户端中许可的所有功能,同时只签出集群中的 MATLABParallel Server 许可证。
配置客户端计算机
此过程验证并行计算产品是否在您的集群上正确安装和配置。
创建集群配置文件
在此步骤中,您将创建一个集群配置文件以供后续步骤使用。
启动集群配置文件管理器。在主页选项卡的环境区域中,选择并行 > 创建和管理集群。
通过选择 添加集群配置文件 > Slurm 在集群配置文件管理器中创建一个新的配置文件。
在列表中选择新的配置文件后,点击重命名,并将配置文件名称编辑为
InstallTest
。选择 Enter。在“属性”选项卡中,提供以下字段的值:
将描述字段设置为
For testing installation
。将 JobStorageLocation 字段设置为您想要在客户端计算机上存储作业和任务数据的位置,例如
C:\Temp\joblocation
。如果该位置也可以从集群上的节点访问,则 MATLAB 工作单元可以直接对其进行读取和写入。否则,客户端使用sftp
在集群之间复制作业和任务数据文件。注意
不能对不同版本的并行计算产品使用相同的作业存储位置。集群上的每个版本都必须使用其自己的作业存储位置。
在许可限制范围内,将 NumWorkers 字段设置为您想要运行验证测试的工作单元数量。
将 NumThreads 设置为每个工作单元上使用的线程数。
将 ClusterMatlabRoot 设置为在工作单元计算机上运行的 MATLAB 安装位置。
如果集群使用在线许可,请将 RequiresOnlineLicensing 设置为 true。
如果将 RequiresOnlineLicensing 设置为 true,则在 LicenseNumber 字段中输入您的许可证号。
设置 HasSharedFilesystem 字段来指示客户端和工作单元是否可以共享相同的
JobStorageLocation
属性值。默认情况下,您的 MATLAB 安装附带可立即使用的调度器程序插件脚本。您可以将 PluginScriptsLocation 字段保留为 MathWorks 提供的默认插件脚本。
如果您想在集群配置文件中使用自定义插件脚本,您可以在 PluginScriptsLocation 字段中指定自定义插件脚本的位置。要了解如何下载和修改默认插件脚本,请参阅下载并自定义插件脚本。
您可以向 AdditionalProperties 表添加其他属性,以自定义客户端如何使用内置调度器属性或自定义调度器属性与集群交互。有关每个调度器的内置附加属性的完整列表,请参阅 自定义示例插件脚本的行为。
例如,您可以使用这些附加属性来连接远程集群并在其上运行作业。
ClusterHost
如果客户端无法访问调度器实用程序来直接将作业提交给第三方调度器,则插件脚本会创建一个到集群的
ssh
会话并通过该连接运行调度器命令。由于 MATLAB 会运行sbatch
和squeue
等调度器实用工具,因此必须提供集群主节点或登录节点的主机名。在 AdditionalProperties 表下,选择添加。指定一个名为ClusterHost
的新属性。对于值,指定集群头节点的主机名,例如cluster-host-name
。将类型设置为String
。RemoteJobStorageLocation
如果客户端和工作单元不共享相同的作业存储位置,并且您将 HasSharedFilesystem 设置为 false,则必须提供头节点和集群工作单元可以访问的作业存储位置。客户端使用
sftp
在您的计算机和集群上的远程作业存储位置之间复制作业和任务文件。在 AdditionalProperties 表下,选择添加。指定一个名为RemoteJobStorageLocation
的新属性。对于值,提供集群工作单元可以存储作业和任务数据的位置的路径,例如/network/share/joblocation
。将类型设置为String
。
点击完成以保存您的集群配置文件。完成的集群配置文件应类似于这些图形之一。
验证集群配置文件
在此步骤中,您将验证您的集群配置文件,从而验证您的安装。您可以指定验证个人配置文件时要使用的工作单元数量。如果您没有在验证选项卡中指定工作单元的数量,那么验证将尝试使用与属性选项选项卡上的 NumWorkers
属性所指定值一样多的工作单元。您可以指定较少数量的工作单元来验证您的配置,而无需占用整个集群。
如果尚未打开,请启动集群配置文件管理器。在主页选项卡的环境区域中,选择并行 > 创建和管理集群。
在列表中选择您的集群配置文件。
点击验证选项卡。
使用复选框选择所有测试或验证阶段的子集,并指定验证配置文件时要使用的工作单元数量。
点击验证。
客户端完成集群验证后,验证选项卡显示输出。下图显示了通过所有验证测试的配置文件的结果。
注意
如果您的验证未通过,请联系 MathWorks 安装支持团队。
如果您的验证通过,您现在就拥有一个可以在其他并行应用程序中使用的有效配置文件。您可以对您的配置文件进行任何适合您的应用程序的修改,例如 NumWorkersRange
、AttachedFiles
、AdditionalPaths
等。
要为其他用户保存您的配置文件,请选择该配置文件并点击导出,然后将您的配置文件保存到方便位置的文件中。稍后,运行 集群配置文件管理器时,其他用户可以通过点击导入来导入您的配置文件。
您可以通过创建配置文件然后将该文件分发给集群用户,让 MATLAB 客户端使用 Parallel Computing Toolbox“发现集群”功能来定位您的集群。有关详细信息,请参阅配置第三方调度器集群发现。
运行并行代码
完成配置后,您就可以向集群提交作业了。有关示例,请参阅在集群和云平台上运行代码。