一、平台信息

1、节点信息

模块 信息 备注
OS Ubuntu 22.04.2 内核: 5.15.0-60-generic
内存 DDR4 3200MHz 32GB * 16 512GB
CPU Intel 8358 CPU 2.60GHz * 2 64核心128线程
网卡 HDR 200Gb 2IB 及 4IB
GPU A100 SXM4 GPU * 8 40GB显存
系统盘 512G SSD RAID1
数据盘 1.92T NVME SSD
CUDA 所有版本均可兼容支持
Nvidia驱动 535.104.12
节点数量 32台

2、共享存储

共享存储采用DPC存储系统,总量为1.5PB。

读写

IOPS

mdtest

3、计算网络及存储网络

计算网络:Mellanox 200G * 2 或 200G * 4
存储网络:复用计算网络

二、更新日志

  1. 更新了Nvidia驱动及增加对CUDA 12+适配支持。
  2. 修复用户web页面GPU、CPU配额与作业实际占用不匹配的问题。
  3. 修复用户家目录限额异常问题(存储超额将报错以及将无法创建新的开发环境)
  4. 增加用户页面对作业IB流量的监控面板。
  5. 增加站内信告警。
  6. 增加了组配额管理功能,修复了组管理员可以任意修改组成员存储配额问题。
  7. 增加镜像配额及限额功能
作者:admin  创建时间:2024-12-10 09:14
最后编辑:admin  更新时间:2024-12-30 10:44