训练任务

训练任务是用户模型开发和调试完毕后需要长时间训练的环境。平台提供单机训练任务、分布式训练任务、MPI训练任务三种类型,用户根据自身的业务需求进行灵活选择。
本指南以tensorflow镜像创建单机任务为例子进行说明:

  1. 进入平台训练管理模块

  2. 点击页面“创建”按钮,弹出填写任务信息页面可以进行创建训练任务

  3. 然后用户需填写任务详细信息包括:任务名称(只接受英文字母、数字和下划线,不能以下划线开头);镜像,在第一个窗口选择tensorflow框架名称,在第二个窗口选择框架版本;资源组,选择可用资源组;加速卡类型,选择资源组内相应的加速卡类型;CPU/加速卡,选择worker节点的CPU/加速卡资源配置方案。当配额方案是“自定义”时,会弹出加速卡和CPU窗口,可以自定义设置资源配置方案。py脚本,点击窗口后第一个按钮,弹出“选择启动文件”窗口,选择tensorflow单机训练脚本,脚本示例路径如:/user_home/models/tensorflow/mnist/tf_mnist_single.py。

作者:admin  创建时间:2023-03-21 11:01
最后编辑:admin  更新时间:2024-04-28 09:41