前提条件

  • 已获取管理控制台账号和密码。

  • 已完成个人实名认证且账户余额大于 0 元。

  • 已开通 AI 算力平台可用区使用权限,如宁夏区,具体可提工单咨询。

  • 已开通并行文件存储 EPFS 服务。

  • 已创建基础网络或 VPC 网络。

操作步骤

  1. 登录管理控制台。

  2. 点击产品与服务 > 计算 > AI 算力平台,默认进入快速入门页面。

  3. 点击创建集群,进入 AI 集群创建页面,配置各项参数。

    cluster create 1
    参数 说明

    集群名称

    当前 AI 集群的名称,用户自定义。

    集群描述

    针对当前集群的描述信息,选填项。

    付费类型

    支持包年包月或按需付费。

    • 包年包月:按照订单的购买周期结算。

    • 按需计费:按照实际使用时长计费。

    购买周期

    当选择包年包月时,可设置购买周期。支持 1 个月、 3 个月、 6 个月、 12 个月、2 年、 3 年以及 5 年。

    自动续约

    当选择包年包月时,可设置自动续约。账户余额充足时,自动续约周期和您购买的周期保持一致,比如:购买一个月,自动续约将续约一个月。

    计算规格

    支持选择物理机或虚拟机。

    • 物理机:采用 8 张 NVIDIA A800 80GB SXM4 模组 GPU 高速显卡,CPU 架构为 Intel 8378C 2.8GHz,其 vCPU 为 152 核,内存为 2048GB。使用物理机可占用整机资源,无任何损耗,但是是无法绑定公网 IP 访问外网,适用于对 CPU 和内存要求较高的大型训练场景。

    • 虚拟机:采用 NVIDIA A800 型号的 GPU 显卡,CPU 架构为 Intel 8358 2.6GHz - 3.2GHz,CPU 与内存比为 1:4。虚拟机可以单卡使用,绑定 VPC 网络、私有网络,网络配置相对灵活,同时可以绑定公网 IP 访问外网,但是在使用过程会对 CPU 和内存造成一定的损耗,适用于对 CPU 和内存要求较小的训练场景。

    共享目录

    当前集群的文件存储,选择已创建好的共享目录。若当前平台内无可用的共享目录,可点击创建新的共享目录进行创建。
    共享目录是集群访问的存储目录,指定存储空间。

    用户名

    登录当前集群的用户名,自定义。

    设置密码

    登录当前集群用户名所对应的密码,支持自定义或系统自动生成。

    网络类型

    支持使用私有网络或基础网络。

    • 若选择使用私有网络,需配置 VPC 网络和私用网络两部分。

    • 若选择使用基础网络,只需配置基础网络即可。

    基础网络

    网络类型选择基础网络时,需配置该参数,选择平台内已有的基础网络。

    VPC 网络

    网络类型选择私有网络时,需配置该参数。用来管理相关网络服务,若无 VPC 网络,可直接进行创建。

    私有网络

    网络类型选择私有网络时,需配置该参数。选择已创建的私有网络,若无私有网络,可直接进行创建。

  4. 集群各项参数配置完成后,点击立即申请,等待集群创建完成即可。

视频教程

详细操作也可参考以下视频教程。