资源管理
资源组
“资源管理 > 资源组”,在业务范围是训推、训练、推理下可用
“资源组”,显示资源组列表,主要包括:名称、服务器节点数、CPU核数、CPU-Limit、加速卡已用/总数、当前任务数、复用情况、标签、共享属性、状态、超时设置。

注意,推理资源组defaultGroupInf不支持CPU-Limit、共享属性、超时设置字段,展示N/A。
用户单击服务器节点数,显示节点列表,包括:节点名称、IP、CPU核数、加速卡类型、加速卡数、内存、磁盘、配置状态、操作。

节点管理
“资源管理 > 节点管理”,在业务范围是训推、训练、推理下可用
“节点管理”,显示所属资源组节点列表,包括:节点名称、状态、计算状态、IP、型号、BMC地址、CPU核数、加速卡数、内存、网络类型、挂载路径、挂载开关、网络信息、交换机名称、docker存储、所属资源组。

注意,节点用途为推理的节点,不支持计算状态、挂载路径、挂载开关、网络信息字段,展示N/A。
节点详情
“资源管理 > 节点管理 > 节点详情”,在业务范围是训推、训练、推理下可用
单击“节点管理 > 节点名称”,显示节点详情,包括:数据、镜像、挂载信息、故障详情。
数据
“资源管理 > 节点管理 > 节点详情 > 数据”,在节点用途为训练下可用
数据列表显示缓存到节点的数据信息,主要包括:节点名称、IP、数据路径、数据大小、使用次数、使用状态、缓存时间、最近使用时间。使用状态有两种:未使用、已使用,表示该数据当前是否使用。缓存时间表示该数据下载的时间。最近使用时间表示最近一次使用的时间。
“删除数据”:可以删除节点的数据,只能删除未使用状态的数据,删除使用状态的数据,会提示删除失败。

镜像
“资源管理 > 节点管理 > 节点详情 > 镜像”,在节点用途为训练、推理下可用
显示节点本地镜像信息,主要包括:节点名称、IP、镜像名称、标签、大小、是否在用、上传者、创建时间、操作。
“删除镜像”:支持单个或批量删除镜像,只能删除未使用的镜像。

注意,节点用途为推理的节点,“是否在用”显示为N/A。
挂载信息
“资源管理 > 节点管理 > 节点详情 > 挂载信息”,在节点用途为训练、推理下可用
显示节点的挂载信息,主要包括:节点名称、IP、挂载路径、文件系统类型、总容量、已使用、剩余。

故障详情
“资源管理 > 节点管理 > 节点详情 > 故障详情”,在节点用途为训练下可用
显示节点的故障信息,主要包括:故障时间、故障类型、故障级别、详情、禁用容错截止时间。
