为 MATLAB 作业调度器配置度量
配置 MATLAB® 作业调度器以从作业管理器导出集群监控度量,例如集群状态、工作单元利用率和正在使用的许可证。这些度量可帮助您:
监控 MATLAB 作业调度器集群的健康状况
诊断集群问题
优化集群性能
您可以使用集群监控系统(例如 Prometheus®)收集导出的度量,并使用使用情况分析和警报工具在预配置的 Grafana® 仪表板中可视化这些度量。
前提条件
如果您是第一次将 MATLAB 作业调度器与集群集成,则必须安装并配置 MATLAB 作业调度器。有关最常见的配置选项,请参阅 使用网络许可证管理器安装 MATLAB 作业调度器。
您必须知道已安装的 MATLAB Parallel Server™ 软件的位置。在配置 MATLAB 作业调度器以及生成证书和密钥文件时,请使用此位置。
编辑 MATLAB 作业调度器参数文件
要设置 MATLAB 作业调度器以导出度量,必须在安装 mjs
服务并启动 MATLAB 作业调度器之前,编辑主节点上的 mjs_def
文件。您可以在以下位置找到此文件。将 matlabroot
替换为您的 MATLAB Parallel Server 安装位置的路径。
Windows® 操作系统上的
matlabroot\toolbox\parallel\bin\mjs_def.bat
Linux® 操作系统上的
matlabroot/toolbox/parallel/bin/mjs_def.sh
要了解有关 mjs_def
文件中参数的更多信息,请参阅定义 MATLAB 作业调度器启动参数。
使用这些参数配置 MATLAB 作业调度器作业管理器以导出度量。使用所需的值编辑 mjs_def
文件中的参数。
参数 | 描述 | 必需值 |
---|---|---|
| 从作业管理器导出集群监控度量的选项。 | true |
| 用于导出度量的端口。 作业管理器使用您指定的端口上的 HTTP 或 HTTPS 服务器导出度量。 | 默认情况下,作业管理器使用端口号 |
| 选项使用加密通信来导出度量。 | 默认情况下, 要禁用加密并导出 HTTP 服务器上的度量,请将 |
| 作业管理器对加密度量的信任证书颁发机构 (CA)。 如果 | 指定 CA 证书的路径,例如:
mjssetup 工具生成作业管理器的 CA 证书。要了解更多信息,请参阅 生成证书和密钥文件。 |
| 作业管理器的加密度量证书。 作业管理器向想要为度量建立加密连接的客户端出示此证书。如果 | 指定作业管理器证书的路径,例如:
mjssetup 工具生成作业管理器的证书。要了解更多信息,请参阅 生成证书和密钥文件。 |
| 作业管理器用于加密度量的私钥。 如果 | 指定作业管理器的私钥路径。您必须将私有密钥与为
mjssetup 工具来生成作业管理器的私钥。要了解更多信息,请参阅 生成证书和密钥文件。 |
生成证书和密钥文件
您可以使用 mjssetup
工具生成作业管理器的证书和使用加密通信导出度量所需的密钥文件。mjssetup
工具随 MATLAB 一起提供。您可以在以下文件夹中找到 mjssetup
工具的可执行文件。将 matlabroot
替换为您的 MATLAB Parallel Server 安装位置的路径。
Linux 操作系统上为
matlabroot/toolbox/parallel/bin/glnxa64
。Windows 操作系统上为
matlabroot\toolbox\parallel\bin\win64
。
要生成作业管理器的证书和密钥文件,请指定 generate-metrics-certificates-and-keys
命令、作业管理器的主机名以及证书和密钥文件的输出文件夹。例如,在 Linux 操作系统上,在名为 MJSJobManager
的文件夹中为主机名为 mjs-metrics
的作业管理器生成证书和密钥文件。
cd matlabroot/toolbox/parallel/bin/glnxa64
mjssetup generate-metrics-certificates-and-keys -jobmanagerhost <MJSJobManager> -outdir <mjs-metrics>
prometheus.crt
公共证书和 prometheus.key
私钥。要了解更多信息,请参阅 使用 Prometheus 和 Grafana 监控集群度量。访问服务器度量
当您将 MATLAB 作业调度器配置为导出度量时,作业管理器将在头节点上启动一个 HTTP 或 HTTPS 服务器。服务器使用 METRICS_PORT
在指定的数字上打开一个端口,并显示一个包含集群度量的页面。集群度量以可读的 Prometheus 文本格式呈现,可轻松与服务器性能监控平台整合。
您可以使用 nodestatus
命令来查找包含集群度量的页面的 URL。要了解如何使用度量 URL 设置 Prometheus 数据源,请参阅 使用 Prometheus 和 Grafana 监控集群度量。
nodestatus
Job manager lookup process: Status Running Job manager: Name MJSJobManager Running on host host1.dhcp.mycompany.com Number of workers 4 Status running Supported releases R2024b Metrics URL https://host1.dhcp.mycompany.com:8001
使用 Prometheus 和 Grafana 监控集群度量
在将 MATLAB 作业调度器集群设置为导出度量后,您可以设置一个 Prometheus 数据源来收集集群度量,并设置一个 Grafana 仪表板来可视化和分析度量。
要配置 Prometheus 数据源并访问预配置的 Grafana 仪表板,请按照 GitHub® 存储库 Cluster Monitoring Integration for MATLAB Job Scheduler 中的说明操作。