Main Content

管理和访问 MATLAB 作业调度器集群作业历史记录

自 R2024a 起

MATLAB® 作业调度器集群默认保存作业历史信息。您可以使用作业历史数据来深入了解集群的使用情况。

启用作业历史记录

具有 MATLAB Parallel Server™ 版本 R2024a 或更高版本的 MATLAB 作业调度器集群默认保存作业历史信息。要受益于作业历史记录保存,请将集群的 MATLAB Parallel Server 版本更新到 R2024a 版本或更高版本。

您可以使用 mjs_def 文件中的 SAVE_JOB_HISTORY 参数控制作业历史记录信息的保存。有关 mjs_def 文件的更多信息,请参阅定义 MATLAB 作业调度器启动参数

管理作业历史文件

MATLAB 作业调度器将作业历史数据保存到头节点上 CHECKPOINTBASE 位置的 job_history 文件夹中。检查 mjs_def 文件以找到检查点文件夹的位置。

调度器将作业历史数据保存到一组十个轮换的 CSV 文件中。默认情况下,当活动作业历史记录 CSV 文件大小达到 1 GB 时,调度器会存档该文件。实际上,当活动作业历史文件 job_history.0.csv 达到 1 GB 的大小限制时,调度器会将该文件存档为 job_history.1.csv 并继续写入新的 job_history.0.csv 文件。同时,调度器会删除最旧的文件 job_history.9.csv,并按如下方式轮换现有的作业历史文件:job_history.1.csv 变为 job_history.2.csvjob_history.2.csv 变为 job_history.3.csv,依此类推,直到 job_history.8.csv 变为 job_history.9.csv。数据库文件夹中所有文件的总大小限制为 10 GB。

数据库文件夹中所有文件的总大小限制为 10 GB。

如果调度器在设置作业历史记录期间遇到任何问题(例如,无法创建文件或写入磁盘),startjobmanager 命令将返回错误。

读取作业历史文件

文件系统权限仅允许 admin 用户访问作业历史文件。

每个作业历史记录条目对应一项任务的已完成执行。以下是作业历史记录 CSV 文件的片段。

User,Version,Mode,Type,Job,Task,Attempt,Start,Duration,State,Worker,Host
user2,R2024a,batch,independent,1,1,1,1697120886.345,45.868,finished,mjs-worker-1,wkr1hostid
user5,R2024a,interactive,parpool,2,39,1,1697121035.862,72.551,finished,mjs-worker-25,wkr25hostid
user5,R2024a,interactive,parpool,2,115,1,1697121035.862,72.49,finished,mjs-worker-94,wkr94hostid
user5,R2024a,interactive,parpool,2,2,1,1697121035.862,72.613,finished,mjs-worker-10,wkr10hostid
user5,R2024a,interactive,parpool,2,3,1,1697121035.862,72.621,finished,mjs-worker-100,wkr100hostid
user5,R2024a,interactive,parpool,2,40,1,1697121035.862,72.585,finished,mjs-worker-26,wkr26hostid

CSV 文件中的第一行列出了数据列的名称。

名称 数据类型描述
1用户String

任务的所有者。

2版本String

任务的 MATLAB 版本,例如 R2024a。

3模式String

与任务关联的作业的执行模式。可能的值包括:

  • "batch" - 批量作业提交至集群。

  • "interactive" - 交互式并行池作业提交至集群。

4类型String

与任务相关的作业类型。可能的值包括:

  • "independent" - 批量独立作业提交至集群。

  • "pool" - 批量池作业提交至集群。

  • "spmd" - 批量 spmd 作业提交至集群。

  • "parpool" - 交互式并行池作业提交至集群。

5作业Integer

与任务关联的作业的 ID 号。

6任务Integer

任务的 ID 号。

7尝试Integer

任务尝试的次数。

8开始Double

任务的开始时间,以自 1970 年 1 月 1 日 00:00:00 UTC 以来经过的秒数表示。

9持续时间Double

任务的持续时间,以秒为单位。

10状态String

任务的完成状态。可能的值包括:

  • "finished" - 任务运行完成,没有出现任何错误。

  • "errored" - 任务在 MATLAB 中引发错误。

  • "failed" - 由于集群问题,任务失败。

  • "canceled" - 用户取消或删除了该任务。

11工作进程String

运行该任务的工作进程的姓名。

12主机String

运行该任务的工作进程的机器。

您可以使用任何可以读取 CSV 文件的程序来查看、提取和分析作业历史记录文件中的数据。

相关主题