一、平台信息
1、节点信息
模块 | 信息 | 备注 |
---|---|---|
OS | Ubuntu 22.04.2 | 内核: 5.15.0-60-generic |
内存 | DDR4 3200MHz 32GB * 16 | 512GB |
CPU | Intel 8358 CPU 2.60GHz * 2 | 64核心128线程 |
网卡 | HDR 200Gb | 2IB 及 4IB |
GPU | A100 SXM4 GPU * 8 | 40GB显存 |
系统盘 | 512G SSD RAID1 | |
数据盘 | 1.92T NVME SSD | |
CUDA | 所有版本均可兼容支持 | |
Nvidia驱动 | 535.104.12 | |
节点数量 | 32台 |
2、共享存储
共享存储采用DPC存储系统,总量为1.5PB。
读写
IOPS
mdtest
3、计算网络及存储网络
计算网络:Mellanox 200G * 2 或 200G * 4
存储网络:复用计算网络
二、更新日志
- 更新了Nvidia驱动及增加对CUDA 12+适配支持。
- 修复用户web页面GPU、CPU配额与作业实际占用不匹配的问题。
- 修复用户家目录限额异常问题(存储超额将报错以及将无法创建新的开发环境)
- 增加用户页面对作业IB流量的监控面板。
- 增加站内信告警。
- 增加了组配额管理功能,修复了组管理员可以任意修改组成员存储配额问题。
- 增加镜像配额及限额功能
作者:admin 创建时间:2024-12-10 09:14
最后编辑:admin 更新时间:2024-12-30 10:44
最后编辑:admin 更新时间:2024-12-30 10:44