整体介绍
平台介绍
AIStation平台主要是面向人工智能企业训练场景的人工智能开发平台,可实现容器化部署、可视化开发、集中化管理等,为用户提供极致高性能的AI计算资源,用户通过平台提供的便捷AI容器化部署方式可实现更具效率的分布式训练。
平台实现了高效的计算力支撑、精准的资源管理和调度、敏捷的数据整合及加速、流程化的AI场景及业务整合,有效打通开发环境、计算资源与数据资源,提升开发效率。
用户通过AIStation平台能够创建不同的深度学习框架环境,可以自由的进行模型的开发,通过命令行方式进行调试模型,然后通过开发平台快速提交到训练平台,达到开发训练一体化解决方案。
平台配置
节点配置
节点分类 | 主频/Ghz | 核心数 | 内存/GB | 计算网络 | 节点数 | 单时钟周期计算数(双精度) | AI理论峰值/FLOPs |
---|---|---|---|---|---|---|---|
AI节点 | 2.6 | 64 | 512 | 200G | 271 | 32 | 5 P |
单机加速卡配置
加速卡 | 显存 | 显存带宽 | 功耗 | 单精度计算性能/FLOPs | 双精度计算性能/FLOPs | 单机配置/个数 |
---|---|---|---|---|---|---|
A100 | 40GB | 1600G | 400W | 19.5 T | 9.7 T | 8 |
本平台可以帮助用户实现如下功能:
提供多种AI镜像
平台内置镜像仓库提供了多种常见的深度学习框架镜像,如Tensorflow、Pytorch、PaddlePaddle、Caffe、MXNet等,用户可使用平台提供的AI镜像进行模型开发,另外也支持用户自建镜像创建环境或将镜像文件导入到平台中进行使用。
提供多种数据使用方式
平台提供了开发环境中可以使用用户自己的数据集方式,平台提供共有数据集方式,该数据集统一存放到共享目录下,用户可以按需选择不同的数据集,该数据集由管理员统一维护。
在线模型开发功能
平台默认提供了jupyter功能,且每个用户创建的开发环境都自带jupyter方便用户进行模型的开发,且自动带全屏功能,相当于一个独立的IDE开发环境。
框架环境多种连接方式
深度学习框架运行环境支持web版本shell直接连接,在该页面上用户可以使用任何相关的命令操作,满足命令行操作习惯的用户使用。
深度学习框架运行环境支持本地shell连接方式,通过在开发列表中直接复制ssh连接方式,自动连接到开发环境中。
多种深度学习训练任务模式
平台提供单机训练任务、分布式训练任务、MPI训练任务三种类型,用户根据自身的业务需求进行灵活选择。
多种资源自动匹配
平台提供集群不同Gpu卡类型自动识别技术,在调度中会根据业务需求进行自动调度到相同类型的Gpu卡上,也支持不同类型的Gpu卡调度。
任务容错全自动化
平台提供了多种容错方式,自动识别网络中断、服务器宕机、Gpu卡丢失的情况,自动会把作业重新运行,如果有checkpoint会自动恢复等容错方式,保证用户的任务高可靠的运行。
最后编辑:冯硕 更新时间:2024-12-30 10:44