首页
普通用户登录系统之后可以在首页中直观的看到与个人相关资源的使用情况以及用户个人创建开发环境和训练平台的运行情况,如下图所示:

注意:页面刷新频率为30s
上图中包含的具体信息详细说明如下:
1.个人资源配额 显示当前用户个人资源的使用情况,包括:

GPU使用情况:总量(创建用户时分配的资源大小,可以设置为无限制)、已用(状态为正在运行的开发环境+训练平台使用GPU卡的和)、可用(总量-已用)
MLU使用情况:总量(创建用户时分配的资源大小,可以设置为无限制)、已用(状态为正在运行的开发环境+训练平台使用MLU卡的和)、可用(总量-已用)
CPU使用情况:总量(创建用户时分配的资源大小,可以设置为无限制)、已用(状态为正在运行的开发环境+训练平台使用CPU的和)、可用(总量-已用)
存储使用情况:总量(创建用户时分配的资源大小,可以设置为无限制)、已用(统计当前用户的用户目录在节点中的实际使用空间)、可用(总量-已用)
注意:当总量为无限制时,可用也为无限制;当已用超过总量时,可用显示为0; 当集群中没有MLU节点的时候,MLU使用情况将不会展示。
2.用户组资源详情(逻辑资源)显示当前用户所在用户组资源的使用情况,包括:

CPU核数:已用(当前用户所在用户组,状态为正在运行的开发环境+训练平台使用CPU的和)、总量(管理员创建用户组时分配的CPU核数大小,可以配置为无限制)
GPU卡数:已用(当前用户所在用户组,状态为正在运行的开发环境+训练平台使用GPU的和)、总量(管理员创建用户组时分配的GPU卡大小,可以配置为无限制)
MLU卡数:已用(当前用户所在用户组,状态为正在运行的开发环境+训练平台使用MLU的和)、总量(管理员创建用户组时分配的MLU卡大小,可以配置为无限制)
颜色说明:0-49%:绿色; 50%-79%:橙色; 80%-100%:红色。
注意:当集群中没有MLU节点的时候,MLU卡数将不会展示。
3.资源组资源详情(物理资源),显示当前用户所在资源组以及资源组内节点的资源使用情况,包括:
资源组使用情况

CPU核数:已用(统计当前资源组下实际使用的CPU核数,包括组件使用)、总量(统计当前资源组下所有节点的实际CPU核数)
加速卡数:已用(统计当前资源组下实际使用的加速卡数,如果同一个卡被多个任务使用则只统计一次,已用不会超过总量)、总量(统计当前资源组下所有节点的实际加速卡数)
共享模式下包括GPU复用、GPU显存复用、A100复用
GPU复用:已用(统计当前资源组下所有任务使用的GPU共享数量)、总量(该资源组下GPU复用的个数),如果不是共享则显示“-”
GPU显存复用:已用(统计当前资源组下所有任务使用的GPU显存大小)、总量(该资源组下GPU显存复用大小)
A100复用:已用(按照A100mig规格统计当前资源组下所有任务使用的GPU数量)、总量(按照A100mig规格统计该资源组下GPU个数)
节点使用情况:
节点名称:当前用户所在资源组内包含的节点的名称
CPU核数:已用(统计当前节点下CPU实际使用的数量,包括节点组件中使用的资源,向上取整,不能超过总量)、总量(该节点下CPU总核数)
加速卡数:已用(统计当前节点下实际使用的加速卡数,如果同一个卡被多个任务使用则只统计一次,已用不会超过总量)、总量(统计当前节点下所有节点的实际加速卡数)
共享模式下包括GPU复用、GPU显存复用、A100复用
GPU复用:已用(统计当前节点下所有任务使用的GPU共享数量)、总量(该节点下GPU复用的个数),如果不是共享则显示“-”
GPU显存复用:已用(统计当前节点下所有任务使用的GPU显存大小)、总量(该节点下GPU显存复用大小)
A100复用:已用(按照A100mig规格统计当前节点下所有任务使用的GPU数量)、总量(按照A100mig规格统计该节点下GPU个数)
4.开发环境,显示当前用户所创建开发环境的运行情况

在该区域可以显示:
当前开发环境:未被删除的开发平台数量
活跃数:当前用户所属不是停止、排队中的开发环境数量
CPU已用:当前用户所属活跃中的开发环境所占用的CPU数量
加速卡独占:当前用户所属活跃中并且使用加速卡整卡的开发环境的加速卡的数量
GPU复用:当前用户所属活跃中并且不使用GPU整卡的开发环境的GPU卡的数量
列表信息:环境名称、状态、节点、资源配置、镜像、创建时间
快捷键:点击【更多】跳转到【开发环境】


5.训练任务,显示当前用户所创建训练平台的运行情况

在该区域可以显示:
任务总量:当前用户创建的所有任务信息的数量
运行任务:状态为运行中、镜像拉取中、数据集拉取中的任务数量
等待任务:状态为排队中的任务数量
加速卡已用:状态为运行中、数据集下载中、镜像拉取中的任务使用的加速卡数量之和
CPU已用:状态为运行中、数据集下载中、镜像拉取中的任务使用的CPU核数数量之和
列表信息:任务名称、状态、运行时长、节点、资源配置、镜像
快捷键:点击【更多】跳转到【训练管理】-【训练任务】
