平台概述
平台架构

■ 人工智能平台对外提供标准的符合规范要求的REST API。
■ 人工智能平台对内在功能性、可靠性、安全性、支撑工具等方面全面优化开源工具,接入各领域核心组件如自研Kubeflow等,同时,自主研发了深度学习、集群管理、资源监控、智能运维、用户系统(LDAP、AD等)系统。
■ 人工智能平台的任务调度系统,支持用户优先级调度、作业排队、并行任务gang scheduler、网络拓扑感知调度、GPU共享调度等多种调度策略。
■ 人工智能平台智能容错机制,可针对系统故障(宕机、断网、掉卡)进行很好的任务容错和断点续训,支持单机任务、多机任务、MPI训练任务。
■ 人工智能平台高速缓存系统,支持共享式高速缓存以及节点本地缓存机制,针对不同的数据集规模,选择适合用户自身训练业务的缓存方式。
■ 人工智能平台可对接GPFS、NFS、HDFS、Ceph等数据存储系统。
平台定位
人工智能平台以客户需求为导向,依托自主研发及技术持续创新,聚焦安防、金融、能源、汽车、教育等产业用户,致力于成为业内领先、高性能、可扩展、稳定安全的企业级人工智能平台。人工智能平台提供异构计算集群的资源统一管理和多策略调度、可视化AI建模、AI训练作业、AI服务部署的全生命周期管理。它的设计目标为:
■ 丰富的功能:异构计算资源管理、容器管理、便捷的业务流程以及高效智能监控等。
■ 优秀的框架兼容性:支持Tensorflow、Pytorch、Mxnet、Caffe、PaddlePaddle等主流框架,支持主流模型服务框架。
■ 高性能深度学习训练作业调度系统:根据深度学习训练作业特性和容器的特点,自研深度学习调度系统和分布式训练策略。
■ 快速部署和迭代:支持应用服务的快速部署和迭代,利用容器技术,实现服务的快速启动和响应,同时提供在线滚动发布、AB测试功能,可以使服务在不下线的情况下进行升级或测试。
■ 高可用:深度学习训练容错技术,业务连续可用、平台服务不中断。
■ 安全:一整套的安全体系,租户隔离以及安全访问控制等。
平台理念
■ 开放:以容器为核心,构建无厂商锁定的企业级AI平台。
■ 敏捷:容器化、可视化设计,提升客户AI基础设施的建设、使用和维护效率。
■ 安全:分层次的架构设计,底层对资源进行隔离,且采用安全沙箱实现数据安全,实现从业务到底层资源的全链条安全隔离。
■ 智能:以精细高效的监控为基础、数据分析为依据,为客户AI开发业务提供资源管理、作业调度等核心需求的智能化体验。通过智能网关技术,实现高效的服务伸缩功能,增加系统资源利用率。
平台特性
一站式人工智能平台:
■ 支持深度学习任务调度功能,提升训练效率和服务部署效率。在一个平台内完成人工智能模型的开发、训练和部署,实现平台内模型、镜像的流程化一体化管理。
■ 开放兼容多种计算框架:Caffe、Tensorflow、Pytorch、Mxnet、PaddlePaddle等。
■ 提供深度学习开发环境,简化网络模型开发工作,快速按需构建深度学习环境,用户可定义容器的数量,以及容器的配置;支持容器算力服务的弹性伸缩,当容器数量不足时,用户可以方便的扩展自己的服务。
■ 借助GPU集群计算资源数量较多的优势,提供分布式运行深度学习训练快速入口,简化分布式深度学习训练步骤。
丰富的运维监控功能:
■ 提供分析统计功能,可以根据周、月、年的周期进行查看与分析。
■ 全面的集群监控管理,实时掌握CPU、加速卡等资源使用情况及运行状态。
■ 一站式Kubernetes集群管理和维护。
■ 实时检测集群内组件故障,发出报警、事件记录,自动完成故障恢复;提高平台的可用能力,降低平台的运维成本。
平台介绍
提供多种数据使用方式
人工智能平台提供四种数据使用方式:用户自有数据、用户组共享数据、平台全局共享数据、全局样本数据,这四类数据分别存放在不同存储空间中,用户可以按需选择不同存储空间的数据。
在线模型开发功能
人工智能平台的默认镜像均提供了 JupyterLab功能,每个用户创建的开发环境自带 JupyterLab,便于进行交互式模型开发,使用JupyterLab可以快速构建一个独立的 IDE 开发环境。
开发环境多种连接方式
用户可以通过web版shell、本地shell、VSCode远程连接、PyCharm远程连接等四种方式连接所创建的开发环境,可根据使用习惯灵活选择需要的连接方式。
多种深度学习训练任务模式
用户可以通过人工智能平台便捷地提交单机训练任务和分布式训练任务,支持TensorFlow、PyTorch、 MXNet、Caffe、PaddlePaddle等业界主流的深度学习框架。
多种资源自动匹配
人工智能平台可以自动识别集群中的不同加速卡类型(GPU、MLU、BI 等),调度器会根据业务需求自动将任务调度到所需类型的加速卡上。
自动任务容错
人工智能平台提供多种训练任务容错方式,可自动识别网络中断、服务器宕机、加速卡丢失等异常所导致的任务错误,自动从checkpoint重新拉起训练任务,确保用户训练任务的可靠运行。