跳到主要内容
版本:Next

首页介绍

普通用户登录系统之后可以在首页中直观的看到快速入门、个人相关的使用详情、资源配额,如下图所示:

image image

上图中包含的具体信息详细说明如下:

快速入门

平台业务使用的快速入门,可通过相关快捷方式使用相关业务功能。

使用详情

使用详情主要包括以下内容:

名称说明业务范围
开发环境开发环境中个人的总数、运行中个数训练+推理、训练
训练任务任务管理中个人所有未删除任务的总数(任务管理+终结任务)、运行中个数训练+推理、训练
工作流工作流管理中个人工作流的总数、执行中个数训练+推理、训练
算法算法管理中个人算法的总数、已发布个数训练+推理、训练
镜像镜像中个人镜像的总数训练+推理、训练
场景场景管理中个人绑定的场景总数训练+推理、推理
数据集数据集管理中个人数据集总数训练+推理、训练
模型模型管理中个人模型总数、已发布数训练+推理、训练
告警最近半年内集群所有未解决的告警总数训练+推理、训练、推理
服务展示模型服务中通用模型、应用部署、原生部署、HELM部署的服务总数、和已上线数量(通用模型、应用部署、原生部署的就绪状态,HELM部署的运行中状态)训练+推理、推理
应用用户个人应用总数训练+推理、推理

资源配额

显示用户的个人资源配额、用户所属用户组的组资源配额、用户的场景资源配额等数据;

个人资源详情

“首页 > 资源配额 > 个人”,在业务范围是训推、训练下可用

显示当前用户个人资源的使用情况,包括磁盘配额、资源配额(按照资源组-资源系列-资源类型三个维度管理),其中资源配额,比如CPU、GPU等,可以按照设置的资源组维度配额进行筛选,配额包括:

名称说明
GPU-ALL使用情况总量(创建用户时分配的资源大小,可以设置为无限制)、已用(非停止状态的开发环境 + 排队中(非Queuing)、数据拉取中、镜像拉取中、运行中状态的训练任务使用GPU卡的和)、可用(总量-已用);MIG下实例按整卡算
MLU-ALL使用情况总量(创建用户时分配的资源大小,可以设置为无限制)、已用(非停止状态的开发环境 + 排队中(非Queuing)、数据拉取中、镜像拉取中、运行中状态的训练任务使用MLU卡的和)、可用(总量-已用)
其他某类型加速卡使用情况总量(创建用户时分配的资源大小,可以设置为无限制)、已用(非停止状态的开发环境 + 排队中(非Queuing)、数据拉取中、镜像拉取中、运行中状态的训练任务使用其他某类型加速卡的和)、可用(总量-已用)
CPU使用情况总量(创建用户时分配的资源大小,可以设置为无限制)、已用(非停止状态的开发环境 + 排队中(非Queuing)、数据拉取中、镜像拉取中、运行中状态的训练任务使用CPU的和)、可用(总量-已用)
磁盘使用情况总量(创建用户时分配的资源大小,可以设置为无限制)、已用(统计当前用户的用户目录在节点中的实际使用空间)、可用(总量-已用)

磁盘使用量包含各个存储使用详情。磁盘使用量支持手动刷新,展示磁盘更新时间,手动刷新统计范围只统计用户家目录使用量,不统计组共享和全局共享用户存储使用量。
注意:
1.类似GPU-ALL第二位ALL是加速卡类型维度,可能为GPU-Tesla-P100-PCIE-16GB;当总量为无限制时,可用也为无限制;当已用超过总量时,可用显示为0,同时在页面初始化加载后进行弹框提示配额超出; 当集群中没有MLU节点的时候,MLU使用情况将不会展示;当集群中没有其他类型加速卡节点的时候,其他某类型加速卡卡数将不会展示。
2.说明中的训练任务包括“任务管理”中全部类型的任务。

用户组资源详情

显示当前用户所在用户组资源的使用情况,分为训练、推理两种,包括:

用户组训练配额

首页 > 资源配额 > 用户组 > 训练资源”,在业务范围是训推、训练下可用

名称说明
磁盘已用(当前用户所在用户组,用户组所有家目录、组共享和全局共享使用之和)、总量(管理员创建用户组时分配的资源大小,可以设置为无限制)
CPU核数已用(当前用户所在用户组,非停止状态的开发环境 + 排队中(非Queuing)、数据拉取中、镜像拉取中、运行中状态的训练任务使用CPU的和)、总量(管理员创建用户组时分配的CPU核数大小,可以配置为无限制)
GPU卡数已用(当前用户所在用户组,非停止状态的开发环境 + 排队中(非Queuing)、数据拉取中、镜像拉取中、运行中状态的训练任务使用GPU的和)、总量(管理员创建用户组时分配的GPU卡大小,可以配置为无限制);MIG下实例按整卡算
MLU卡数已用(当前用户所在用户组,非停止状态的开发环境 + 排队中(非Queuing)、数据拉取中、镜像拉取中、运行中状态的训练任务使用MLU的和)、总量(管理员创建用户组时分配的MLU卡大小,可以配置为无限制)
其他某类型加速卡卡数已用(当前用户所在用户组,非停止状态的开发环境 + 排队中(非Queuing)、数据拉取中、镜像拉取中、运行中状态的训练任务使用其他某类型加速卡的和)、总量(管理员创建用户组时分配的其他类型加速卡大小,可以配置为无限制)

磁盘使用量包含各个存储使用详情。
注意:
1.当集群中没有MLU节点的时候,MLU卡数将不会展示;当集群中没有其他类型加速卡节点的时候,其他某类型加速卡卡数将不会展示。
2.说明中的训练任务包括“任务管理”中全部类型的任务。

用户组推理配额

首页 > 资源配额 > 用户组 > 推理资源”,在业务范围是训推、推理下可用

名称说明
内存已用、总量(管理员创建用户组时分配的内存大小,不能配置为无限制)
存储类XXX已用、总量(管理员创建用户组时分配的存储类大小,不能配置为无限制)
CPU核数已用、总量(管理员创建用户组时分配的CPU核数大小,不能配置为无限制)
NVIDIA-AXX-PCIE-40GB卡数已用、总量(管理员创建用户组时分配的加速卡卡大小,不能配置为无限制)

场景资源详情

首页 > 资源配额 > 场景”,在业务范围是训推、推理下可用

显示当前用户绑定的场景资源的使用情况,包括:

|名称 说明 | ---- | ---- | |内存 |已用、总量(管理员创建场景时分配的内存大小,不能配置为无限制)| |存储类XXX |已用、总量(管理员创建场景时分配的存储类大小,不能配置为无限制)| |CPU核数| 已用、总量(管理员创建场景时分配的CPU核数大小,不能配置为无限制)| |NVIDIA-AXX-PCIE-40GB卡数| 已用、总量(管理员创建场景时分配的加速卡卡大小,不能配置为无限制)||

资源使用状态(已用/总量)

“首页 > 资源配额 > 个人”,在业务范围是训推、训练、推理下可用

显示当前用户所在资源组以及资源组内节点的资源使用情况,包括:

资源组使用情况

名称说明
CPU核数已用(统计当前资源组下实际使用的CPU核数,包括组件使用)、总量(统计当前资源组下所有节点的实际CPU核数)
加速卡数已用(统计当前资源组下实际使用的加速卡数,如果同一个卡被多个任务使用则只统计一次,已用不会超过总量)、总量(统计当前资源组下所有节点的实际加速卡数);MIG下实例按整卡算
GPU共享-复用率已用(统计当前资源组下所有任务使用的GPU共享数量)、总量(该资源组下GPU复用的个数),如果不是共享则显示“-”
GPU共享-显存隔离已用(统计当前资源组下所有任务使用的GPU显存大小)、总量(该资源组下GPU显存复用大小)
GPU MIG(按照MIG规格统计当前资源组下所有任务使用的GPU数量)、总量(按照MIG规格统计该资源组下GPU个数)

注意:共享模式下包括GPU复用率、GPU显存隔离、GPU MIG。

节点使用情况

名称说明
节点名称当前用户所在资源组内包含的节点的名称
CPU核数已用(统计当前节点下CPU实际使用的数量,包括节点组件中使用的资源,向上取整,不能超过总量)、总量(该节点下CPU总核数)
加速卡数已用(统计当前节点下实际使用的加速卡数,如果同一个卡被多个任务使用则只统计一次,已用不会超过总量)、总量(统计当前节点下的实际加速卡数);MIG下实例按整卡算
GPU共享-复用率已用(统计当前节点下所有任务使用的GPU共享数量)、总量(该节点下GPU复用的个数),如果不是共享则显示“-”
GPU共享-显存隔离已用(统计当前节点下所有任务使用的GPU显存大小)、总量(该节点下GPU显存复用大小)
GPU MIG已用(按照MIG规格统计当前节点下所有任务使用的GPU数量)、总量(按照MIG规格统计该节点下GPU个数)

注意:共享模式下包括GPU复用率、GPU显存隔离、GPU MIG。