首页介绍
普通用户登录系统之后可以在首页中直观的看到快速入门、个人相关的使用详情、资源配额,如下图所示:

上图中包含的具体信息详细说明如下:
快速入门
平台业务使用的快速入门,可通过相关快捷方式使用相关业务功能。
使用详情
使用详情主要包括以下内容:
| 名称 | 说明 | 业务范围 |
|---|---|---|
| 开发环境 | 开发环境中个人的总数、运行中个数 | 训练+推理、训练 |
| 训练任务 | 任务管理中个人所有未删除任务的总数(任务管理+终结任务)、运行中个数 | 训练+推理、训练 |
| 工作流 | 工作流管理中个人工作流的总数、执行中个数 | 训练+推理、训练 |
| 算法 | 算法管理中个人算法的总数、已发布个数 | 训练+推理、训练 |
| 镜像 | 镜像中个人镜像的总数 | 训练+推理、训练 |
| 场景 | 场景管理中个人绑定的场景总数 | 训练+推理、推理 |
| 数据集 | 数据集管理中个人数据集总数 | 训练+推理、训练 |
| 模型 | 模型管理中个人模型总数、已发布数 | 训练+推理、训练 |
| 告警 | 最近半年内集群所有未解决的告警总数 | 训练+推理、训练、推理 |
| 服务 | 展示模型服务中通用模型、应用部署、原生部署、HELM部署的服务总数、和已上线数量(通用模型、应用部署、原生部署的就绪状态,HELM部署的运行中状态) | 训练+推理、推理 |
| 应用 | 用户个人应用总数 | 训练+推理、推理 |
资源配额
显示用户的个人资源配额、用户所属用户组的组资源配额、用户的场景资源配额等数据;
个人资源详情
“首页 > 资源配额 > 个人”,在业务范围是训推、训练下可用
显示当前用户个人资源的使用情况,包括磁盘配额、资源配额(按照资源组-资源系列-资源类型三个维度管理),其中资源配额,比如CPU、GPU等,可以按照设置的资源组维度配额进行筛选,配额包括:
| 名称 | 说明 |
|---|---|
| GPU-ALL使用情况 | 总量(创建用户时分配的资源大小,可以设置为无限制)、已用(非停止状态的开发环境 + 排队中(非Queuing)、数据拉取中、镜像拉取中、运行中状态的训练任务使用GPU卡的和)、可用(总量-已用);MIG下实例按整卡算 |
| MLU-ALL使用情况 | 总量(创建用户时分配的资源大小,可以设置为无限制)、已用(非停止状态的开发环境 + 排队中(非Queuing)、数据拉取中、镜像拉取中、运行中状态的训练任务使用MLU卡的和)、可用(总量-已用) |
| 其他某类型加速卡使用情况 | 总量(创建用户时分配的资源大小,可以设置为无限制)、已用(非停止状态的开发环境 + 排队中(非Queuing)、数据拉取中、镜像拉取中、运行中状态的训练任务使用其他某类型加速卡的和)、可用(总量-已用) |
| CPU使用情况 | 总量(创建用户时分配的资源大小,可以设置为无限制)、已用(非停止状态的开发环境 + 排队中(非Queuing)、数据拉取中、镜像拉取中、运行中状态的训练任务使用CPU的和)、可用(总量-已用) |
| 磁盘使用情况 | 总量(创建用户时分配的资源大小,可以设置为无限制)、已用(统计当前用户的用户目录在节点中的实际使用空间)、可用(总量-已用) |
磁盘使用量包含各个存储使用详情。磁盘使用量支持手动刷新,展示磁盘更新时间,手动刷新统计范围只统计用户家目录使用量,不统计组共享和全局共享用户存储使用量。
注意:
1.类似GPU-ALL第二位ALL是加速卡类型维度,可能为GPU-Tesla-P100-PCIE-16GB;当总量为无限制时,可用也为无限制;当已用超过总量时,可用显示为0,同时在页面初始化加载后进行弹框提示配额超出; 当集群中没有MLU节点的时候,MLU使用情况将不会展示;当集群中没有其他类型加速卡节点的时候,其他某类型加速卡卡数将不会展示。
2.说明中的训练任务包括“任务管理”中全部类型的任务。
用户组资源详情
显示当前用户所在用户组资源的使用情况,分为训练、推理两种,包括:
用户组训练配额
首页 > 资源配额 > 用户组 > 训练资源”,在业务范围是训推、训练下可用
| 名称 | 说明 |
|---|---|
| 磁盘 | 已用(当前用户所在用户组,用户组所有家目录、组共享和全局共享使用之和)、总量(管理员创建用户组时分配的资源大小,可以设置为无限制) |
| CPU核数 | 已用(当前用户所在用户组,非停止状态的开发环境 + 排队中(非Queuing)、数据拉取中、镜像拉取中、运行中状态的训练任务使用CPU的和)、总量(管理员创建用户组时分配的CPU核数大小,可以配置为无限制) |
| GPU卡数 | 已用(当前用户所在用户组,非停止状态的开发环境 + 排队中(非Queuing)、数据拉取中、镜像拉取中、运行中状态的训练任务使用GPU的和)、总量(管理员创建用户组时分配的GPU卡大小,可以配置为无限制);MIG下实例按整卡算 |
| MLU卡数 | 已用(当前用户所在用户组,非停止状态的开发环境 + 排队中(非Queuing)、数据拉取中、镜像拉取中、运行中状态的训练任务使用MLU的和)、总量(管理员创建用户组时分配的MLU卡大小,可以配置为无限制) |
| 其他某类型加速卡卡数 | 已用(当前用户所在用户组,非停止状态的开发环境 + 排队中(非Queuing)、数据拉取中、镜像拉取中、运行中状态的训练任务使用其他某类型加速卡的和)、总量(管理员创建用户组时分配的其他类型加速卡大小,可以配置为无限制) |
磁盘使用量包含各个存储使用详情。
注意:
1.当集群中没有MLU节点的时候,MLU卡数将不会展示;当集群中没有其他类型加速卡节点的时候,其他某类型加速卡卡数将不会展示。
2.说明中的训练任务包括“任务管理”中全部类型的任务。
用户组推理配额
首页 > 资源配额 > 用户组 > 推理资源”,在业务范围是训推、推理下可用
| 名称 | 说明 |
|---|---|
| 内存 | 已用、总量(管理员创建用户组时分配的内存大小,不能配置为无限制) |
| 存储类XXX | 已用、总量(管理员创建用户组时分配的存储类大小,不能配置为无限制) |
| CPU核数 | 已用、总量(管理员创建用户组时分配的CPU核数大小,不能配置为无限制) |
| NVIDIA-AXX-PCIE-40GB卡数 | 已用、总量(管理员创建用户组时分配的加速卡卡大小,不能配置为无限制) |
场景资源详情
首页 > 资源配额 > 场景”,在业务范围是训推、推理下可用
显示当前用户绑定的场景资源的使用情况,包括:
|名称 说明 | ---- | ---- | |内存 |已用、总量(管理员创建场景时分配的内存大小,不能配置为无限制)| |存储类XXX |已用、总量(管理员创建场景时分配的存储类大小,不能配置为无限制)| |CPU核数| 已用、总量(管理员创建场景时分配的CPU核数大小,不能配置为无限制)| |NVIDIA-AXX-PCIE-40GB卡数| 已用、总量(管理员创建场景时分配的加速卡卡大小,不能配置为无限制)||
资源使用状态(已用/总量)
“首页 > 资源配额 > 个人”,在业务范围是训推、训练、推理下可用
显示当前用户所在资源组以及资源组内节点的资源使用情况,包括:
资源组使用情况
| 名称 | 说明 |
|---|---|
| CPU核数 | 已用(统计当前资源组下实际使用的CPU核数,包括组件使用)、总量(统计当前资源组下所有节点的实际CPU核数) |
| 加速卡数 | 已用(统计当前资源组下实际使用的加速卡数,如果同一个卡被多个任务使用则只统计一次,已用不会超过总量)、总量(统计当前资源组下所有节点的实际加速卡数);MIG下实例按整卡算 |
| GPU共享-复用率 | 已用(统计当前资源组下所有任务使用的GPU共享数量)、总量(该资源组下GPU复用的个数),如果不是共享则显示“-” |
| GPU共享-显存隔离 | 已用(统计当前资源组下所有任务使用的GPU显存大小)、总量(该资源组下GPU显存复用大小) |
| GPU MIG | (按照MIG规格统计当前资源组下所有任务使用的GPU数量)、总量(按照MIG规格统计该资源组下GPU个数) |
注意:共享模式下包括GPU复用率、GPU显存隔离、GPU MIG。
节点使用情况
| 名称 | 说明 |
|---|---|
| 节点名称 | 当前用户所在资源组内包含的节点的名称 |
| CPU核数 | 已用(统计当前节点下CPU实际使用的数量,包括节点组件中使用的资源,向上取整,不能超过总量)、总量(该节点下CPU总核数) |
| 加速卡数 | 已用(统计当前节点下实际使用的加速卡数,如果同一个卡被多个任务使用则只统计一次,已用不会超过总量)、总量(统计当前节点下的实际加速卡数);MIG下实例按整卡算 |
| GPU共享-复用率 | 已用(统计当前节点下所有任务使用的GPU共享数量)、总量(该节点下GPU复用的个数),如果不是共享则显示“-” |
| GPU共享-显存隔离 | 已用(统计当前节点下所有任务使用的GPU显存大小)、总量(该节点下GPU显存复用大小) |
| GPU MIG | 已用(按照MIG规格统计当前节点下所有任务使用的GPU数量)、总量(按照MIG规格统计该节点下GPU个数) |
注意:共享模式下包括GPU复用率、GPU显存隔离、GPU MIG。