多区业务资源整合

整合不同区域、业务的 GPU 资源、高速并行文件存储、高速 IB 网络,异构 GPU 算力资源池,支持夸区域的灵活部署,提高性能低延迟的 AI 专用网络环境,支持 AIGC 数据存储场景,满足大规模数据的高效存储和 MPI 需求访问,提升数据传输速度,保障数据传输和任务运行的稳定。

分布式调度与管理

以 Kubernetes 服务为底座,支持多种资源类型调度,可自动分配和管理 GPU 算力资源,提升资源和任务的调度效率,提供资源组和优先级配置的功能,减少数据传输调度路径,满足大语言模型的训练和推理服务,同时支持模型微调服务、推理服务的持续开展。通过快捷、稳定的计算产品,加速科研创新速度。

多样异构算力支持

支持多元化的异构计算资源管理,整合主流 NVDIA GPU 及多种供应商的 GPU、NPU、TPU、DPU 等,构建统一管理的算力资源池。依据计算业务需求,进行灵活的算力资源调度与分发,包括算力资源组、整机柜服务器、按卡申请等多种交付方案。此外,还支持 GPU 算力虚拟化,涵盖 GPU 资源共享和显存虚拟化,从而满足多样化的计算场景需求。

一站式 AI 计算全流程服务

提供算法代码编写、模型训练、模型微调、模型管理、模型部署推理等服务,内置常用 GPU 函数库、工具库、集成内置容器镜像仓库,提供公共镜像仓库 TensorFlow、Pytorch、Jupyter 等,同时用户可根据业务需要,自定义镜像仓库管理,上传本地计算环境,围绕模型进行高效的算法开发与应用实践。

模型仓库能力

提供模型仓库(MaaS)和多种 AI 大模型的一键部署交付,简化模型的管理和部署流程,提高模型应用的便捷性和效率。