管理和访问 MATLAB 作业调度器集群作业历史记录
MATLAB® 作业调度器集群默认保存作业历史信息。您可以使用作业历史数据来深入了解集群的使用情况。
启用作业历史记录
具有 MATLAB Parallel Server™ 版本 R2024a 或更高版本的 MATLAB 作业调度器集群默认保存作业历史信息。要受益于作业历史记录保存,请将集群的 MATLAB Parallel Server 版本更新到 R2024a 版本或更高版本。
您可以使用 mjs_def
文件中的 SAVE_JOB_HISTORY
参数控制作业历史记录信息的保存。有关 mjs_def
文件的更多信息,请参阅定义 MATLAB 作业调度器启动参数。
管理作业历史文件
MATLAB 作业调度器将作业历史数据保存到头节点上 CHECKPOINTBASE
位置的 job_history
文件夹中。检查 mjs_def
文件以找到检查点文件夹的位置。
调度器将作业历史数据保存到一组十个轮换的 CSV 文件中。默认情况下,当活动作业历史记录 CSV 文件大小达到 1 GB 时,调度器会存档该文件。实际上,当活动作业历史文件 job_history.0.csv
达到 1 GB 的大小限制时,调度器会将该文件存档为 job_history.1.csv
并继续写入新的 job_history.0.csv
文件。同时,调度器会删除最旧的文件 job_history.9.csv
,并按如下方式轮换现有的作业历史文件:job_history.1.csv
变为 job_history.2.csv
,job_history.2.csv
变为 job_history.3.csv
,依此类推,直到 job_history.8.csv
变为 job_history.9.csv
。数据库文件夹中所有文件的总大小限制为 10 GB。
数据库文件夹中所有文件的总大小限制为 10 GB。
如果调度器在设置作业历史记录期间遇到任何问题(例如,无法创建文件或写入磁盘),startjobmanager
命令将返回错误。
读取作业历史文件
文件系统权限仅允许 admin
用户访问作业历史文件。
每个作业历史记录条目对应一项任务的已完成执行。以下是作业历史记录 CSV 文件的片段。
User,Version,Mode,Type,Job,Task,Attempt,Start,Duration,State,Worker,Host user2,R2024a,batch,independent,1,1,1,1697120886.345,45.868,finished,mjs-worker-1,wkr1hostid user5,R2024a,interactive,parpool,2,39,1,1697121035.862,72.551,finished,mjs-worker-25,wkr25hostid user5,R2024a,interactive,parpool,2,115,1,1697121035.862,72.49,finished,mjs-worker-94,wkr94hostid user5,R2024a,interactive,parpool,2,2,1,1697121035.862,72.613,finished,mjs-worker-10,wkr10hostid user5,R2024a,interactive,parpool,2,3,1,1697121035.862,72.621,finished,mjs-worker-100,wkr100hostid user5,R2024a,interactive,parpool,2,40,1,1697121035.862,72.585,finished,mjs-worker-26,wkr26hostid
CSV 文件中的第一行列出了数据列的名称。
列 | 名称 | 数据类型 | 描述 |
---|---|---|---|
1 | 用户 | String | 任务的所有者。 |
2 | 版本 | String | 任务的 MATLAB 版本,例如 R2024a。 |
3 | 模式 | String | 与任务关联的作业的执行模式。可能的值包括:
|
4 | 类型 | String | 与任务相关的作业类型。可能的值包括:
|
5 | 作业 | Integer | 与任务关联的作业的 ID 号。 |
6 | 任务 | Integer | 任务的 ID 号。 |
7 | 尝试 | Integer | 任务尝试的次数。 |
8 | 开始 | Double | 任务的开始时间,以自 1970 年 1 月 1 日 00:00:00 UTC 以来经过的秒数表示。 |
9 | 持续时间 | Double | 任务的持续时间,以秒为单位。 |
10 | 状态 | String | 任务的完成状态。可能的值包括:
|
11 | 工作进程 | String | 运行该任务的工作进程的姓名。 |
12 | 主机 | String | 运行该任务的工作进程的机器。 |
您可以使用任何可以读取 CSV 文件的程序来查看、提取和分析作业历史记录文件中的数据。