主要内容

本页采用了机器翻译。点击此处可查看最新英文版本。

MATLAB 作业调度器配置度量

自 R2024b 起

配置 MATLAB® 作业调度器以从作业管理器导出集群监控度量,例如集群状态、工作单元利用率和正在使用的许可证。这些度量可帮助您:

  • 监控 MATLAB 作业调度器集群的健康状况

  • 诊断集群问题

  • 优化集群性能

您可以使用集群监控系统(例如 Prometheus®)收集导出的度量,并使用使用情况分析和警报工具在预配置的 Grafana® 仪表板中可视化这些度量。

前提条件

如果您是第一次将 MATLAB 作业调度器与集群集成,则必须安装并配置 MATLAB 作业调度器。有关最常见的配置选项,请参阅 使用网络许可证管理器安装 MATLAB 作业调度器

您必须知道已安装的 MATLAB Parallel Server™ 软件的位置。在配置 MATLAB 作业调度器以及生成证书和密钥文件时,请使用此位置。

编辑 MATLAB 作业调度器参数文件

要设置 MATLAB 作业调度器以导出度量,必须在安装 mjs 服务并启动 MATLAB 作业调度器之前,编辑主节点上的 mjs_def 文件。您可以在以下位置找到此文件。将 matlabroot 替换为您的 MATLAB Parallel Server 安装位置的路径。

  • Windows® 操作系统上的 matlabroot\toolbox\parallel\bin\mjs_def.bat

  • Linux® 操作系统上的 matlabroot/toolbox/parallel/bin/mjs_def.sh

要了解有关 mjs_def 文件中参数的更多信息,请参阅定义 MATLAB 作业调度器启动参数

使用这些参数配置 MATLAB 作业调度器作业管理器以导出度量。使用所需的值编辑 mjs_def 文件中的参数。

参数

描述

必需值

EXPORT_METRICS

从作业管理器导出集群监控度量的选项。

true

METRICS_PORT

用于导出度量的端口。

作业管理器使用您指定的端口上的 HTTP 或 HTTPS 服务器导出度量。

默认情况下,作业管理器使用端口号 8001

USE_SECURE_METRICS

选项使用加密通信来导出度量。

默认情况下,USE_SECURE_METRICS 设置为 true,并且作业管理器在加密的 HTTPS 服务器上导出度量。

要禁用加密并导出 HTTP 服务器上的度量,请将 USE_SECURE_METRICS 设置为 false

METRICS_CA_FILE

作业管理器对加密度量的信任证书颁发机构 (CA)。

如果 USE_SECURE_METRICS 为真,则作业管理器仅与出示该 CA 签名的证书的客户端建立加密连接。如果 USE_SECURE_METRICStrue,则必须设置此参数。

指定 CA 证书的路径,例如:

METRICS_CA_FILE=<~/mjs-metrics>/ca.crt
您可以使用 mjssetup 工具生成作业管理器的 CA 证书。要了解更多信息,请参阅 生成证书和密钥文件

METRICS_CERT_FILE

作业管理器的加密度量证书。

作业管理器向想要为度量建立加密连接的客户端出示此证书。如果 USE_SECURE_METRICStrue,则必须设置此参数。

指定作业管理器证书的路径,例如:

METRICS_CERT_FILE=<~/mjs-metrics>/jobmanager.crt
您可以使用 mjssetup 工具生成作业管理器的证书。要了解更多信息,请参阅 生成证书和密钥文件

METRICS_KEY_FILE

作业管理器用于加密度量的私钥。

如果 USE_SECURE_METRICStrue,则必须设置此参数。

指定作业管理器的私钥路径。您必须将私有密钥与为 METRICS_CERT_FILE 指定的证书关联。例如:

METRICS_KEY_FILE=<~/mjs-metrics>/jobmanager.key
您可以使用 mjssetup 工具来生成作业管理器的私钥。要了解更多信息,请参阅 生成证书和密钥文件

生成证书和密钥文件

您可以使用 mjssetup 工具生成作业管理器的证书和使用加密通信导出度量所需的密钥文件。mjssetup 工具随 MATLAB 一起提供。您可以在以下文件夹中找到 mjssetup 工具的可执行文件。将 matlabroot 替换为您的 MATLAB Parallel Server 安装位置的路径。

  • Linux 操作系统上为 matlabroot/toolbox/parallel/bin/glnxa64

  • Windows 操作系统上为 matlabroot\toolbox\parallel\bin\win64

要生成作业管理器的证书和密钥文件,请指定 generate-metrics-certificates-and-keys 命令、作业管理器的主机名以及证书和密钥文件的输出文件夹。例如,在 Linux 操作系统上,在名为 MJSJobManager 的文件夹中为主机名为 mjs-metrics 的作业管理器生成证书和密钥文件。

cd matlabroot/toolbox/parallel/bin/glnxa64
mjssetup generate-metrics-certificates-and-keys -jobmanagerhost <MJSJobManager> -outdir <mjs-metrics>
该命令还会生成用于设置 Prometheus 数据源的 prometheus.crt 公共证书和 prometheus.key 私钥。要了解更多信息,请参阅 使用 Prometheus 和 Grafana 监控集群度量

访问服务器度量

当您将 MATLAB 作业调度器配置为导出度量时,作业管理器将在头节点上启动一个 HTTP 或 HTTPS 服务器。服务器使用 METRICS_PORT 在指定的数字上打开一个端口,并显示一个包含集群度量的页面。集群度量以可读的 Prometheus 文本格式呈现,可轻松与服务器性能监控平台整合。

您可以使用 nodestatus 命令来查找包含集群度量的页面的 URL。要了解如何使用度量 URL 设置 Prometheus 数据源,请参阅 使用 Prometheus 和 Grafana 监控集群度量

nodestatus
Job manager lookup process:
     Status                        Running
 
Job manager:
     Name                          MJSJobManager
     Running on host               host1.dhcp.mycompany.com
     Number of workers             4
     Status                        running
     Supported releases            R2024b
     Metrics URL                   https://host1.dhcp.mycompany.com:8001

使用 PrometheusGrafana 监控集群度量

在将 MATLAB 作业调度器集群设置为导出度量后,您可以设置一个 Prometheus 数据源来收集集群度量,并设置一个 Grafana 仪表板来可视化和分析度量。

要配置 Prometheus 数据源并访问预配置的 Grafana 仪表板,请按照 GitHub® 存储库 Cluster Monitoring Integration for MATLAB Job Scheduler 中的说明操作。

另请参阅

主题