训练平台
训练平台功能详解
1.创建训练任务
本手册以tensorflow单机任务为例子进行说明。
功能说明:用户通过平台提供的训练任务功能,能够自动创建一个新的训练任务,创建成功后自动在训练任务列表展示该任务。
操作步骤:
A:进入训练任务模块,点击页面“创建”按钮,弹出填写任务信息页面,如下图:
B:填写任务详细信息:
名称:任务名字(只接受英文字母、数字和下划线,不能以下划线开头)。
镜像:在第一个窗口选择tensorflow框架名称,在第二个窗口选择框架版本。
外部镜像:勾选该选项后,用户可以自定义输入镜像名称。
资源组:选择资源组。
加速卡类型:选择资源组内相应的加速卡类型。
CPU/加速卡:选择worker节点的CPU/加速卡资源配置方案,当配额方案是“自定义”时,会弹出加速卡和CPU窗口,可以自定义设置资源配置方案。
py脚本:点击窗口后第一个按钮,弹出“选择启动文件”窗口,选择tensorflow单机训练脚本,
脚本示例路径:/duangd/models/tensorflow/mnist/tf_mnist_single.py
说明:duangd这个表示用户的家目录,最终以实际的用户名为准。选定后点击确定;
点击第二个按钮,会弹出“选择启动文件标签”窗口,选定后点击确定。“选择启动文件”中有两个子选项,分别为 “历史访问”、“个人数据”。“历史访问”表示以前使用过的启动脚本,展示在此处以便用户选择。“个人数据”表示自己文件中的数据文件。

命令:用户点击下图中方框中的按钮会切换到命令行模式,可以自定义自己的启动命令。
执行目录:选择执行训练脚本的目录,执行目录可以选择自己目录下的任何文件夹。
脚本参数:在“脚本参数”输入框可以输入python脚本所跟随的参数,例如“—data_dir /MNIST_data”
数据集:点击窗口后按钮可以弹出“选择数据集”,选定后点击确定。勾选下方“更新数据集”选项可以在进行训练前更新所选定的数据集。
更新数据集说明:勾选后,平台自动会对缓存的数据集进行识别,如果部分数据集文件发生变化,平台会实现增量更新,如果缓存中没有数据集,会全量下载数据集。如果缓存中的数据集正在使用,则不能进行更新操作。
数据集使用方式说明:有“节点缓存”和“直接使用”两种方式。“节点缓存”表示将数据集缓存到节点,“直接使用”表示使用共享存储中的数据集。
注意:数据集也可以来自于用户目录、公共目录(全局共享和组共享),数据集可以选择多个。数据集示例路径:/MNIST_data

点击“更多配置”可以显示以下信息选项:
内存:配置训练任务worker节点所需要的内存,当设置为0时表示无限制(需要小于worker所在主机目前剩余内存量)
日志路径:训练日志输出路径,点击窗口后的按钮,选择相应路径后点击确定。
目录挂载:可供挂载的公共目录。
shm_size:可以自定义shm_size大小,默认为4GB。
部署类型:训练任务部署类型,选择“单机”。
在右侧区域显示资源组下的节点信息,这里可以自定义运行的节点,比如需要在ainode53上运行该任务,可以直接勾选,这样平台会默认调度到该节点上。节点列表中还可以看到每个节点上资源的情况。如果不选择节点,则平台会自动选择剩余资源满足的节点运行该任务。
C:信息填写完之后,点击“确定”按钮创建任务,任务展示在训练任务列表中:

2.停止训练任务
功能说明:用户通过平台提供的停止训练任务功能,能够停止一个正在运行的训练任务。
操作步骤:A:进入训练任务模块,选中一个正在运行的训练任务,点击停止按钮,如下图:
B:页面显示停止成功表示该操作成功。
3.启动训练任务
功能说明:用户通过平台提供的启动训练任务功能,能够启动一个停止的训练任务。 操作步骤:A:进入训练任务模块,选中一个停止的训练任务,点击“启动”按钮,如下图:
B:任务重新启动说明操作成功。
4.重新提交训练任务
功能说明:用户通过平台提供的重新提交训练任务功能,能够重新提交一个训练任务。
操作步骤:A:进入训练任务模块,选中一个训练任务,点击重新提交按钮,如下图:

5.通过历史记录提交训练任务
功能说明:用户通过平台提供的通过历史记录提交训练任务功能。
操作步骤:
A:进入训练任务模块,点击创建按钮,进入任务信息填写窗口,点击“历史任务”按钮,如下图:

B:选中相应的历史任务后,双击后将自动填充历史任务信息:框架类型、镜像、加速卡、CPU、内存、启动文件、数据集。
6.删除训练任务
功能说明:用户通过平台提供的删除训练任务功能,能够删除一个训练任务。
操作步骤:
A:进入训练任务模块,选中一个训练任务,点击删除按钮,如下图:
B:页面显示删除成功表示该操作成功。
7.筛选完成任务
功能说明:用户通过平台提供的筛选完成任务功能,能够通过状态和字段筛选完成任务。
操作步骤:
A:进入训练任务模块,点击完成任务列表,通过筛选功能进行筛选,如下图:
8.查看训练日志
功能说明:用户通过平台提供的查看任务日志功能,能够查看具体的训练日志。
操作步骤:
A:进入训练任务模块,点击任务名字跳转到任务详情页面,点击“任务日志”按钮可以查看训练日志,如下图:

9.查看容器实例
功能说明:用户通过平台提供的查看任务容器实例功能,能够查看任务的容器实例信息和监控信息。
操作步骤:
A:进入训练任务模块,点击任务名字跳转到任务详情页面,点击“容器实例”按钮可以查看容器实例信息,如下图:

10.查看任务基本信息
功能说明:用户通过平台提供的查看任务基本功能,能够查看任务的基本信息。
操作步骤:
A:进入训练任务模块,点击任务名字跳转到任务详情页面,点击“基本信息”按钮可以查看任务基本信息,如下图:

11.任务可视化
功能说明:用户通过平台提供的可视化功能,能够查看任务的训练日志。
操作步骤:
A:进入训练任务模块,点击相关任务可视化按钮,如下图:

B:如果在创建任务的时候没有选择日志路径,在此处将会再次提示用户选择,如下图:

C:点击确定后,弹出可视化窗口,如下图:

12.提交紧急任务
点击创建按钮,创建任务。
打开“紧急任务”开关。
点击“确定”按钮,提交一个紧急任务。