前提条件

  • 已经获取 QingCloud 管理控制台账户和密码。

  • 已完成个人实名认证且账户余额大于 0 元。

操作步骤

  1. 登录 QingCloud 管理控制台。

  2. 在顶部导航栏,点击产品与服务 > AI 智算服务 > AI 智算平台,进入 AI 智算平台总览页面。

  3. 在左侧导航栏,选择开发与训练 > 分布式训练,默认进入分布式训练任务列表页面,点击创建训练任务

  4. 在创建训练任务页面,配置各项参数,点击确定即可。

    参考以下参数说明进行配置。

    参数 说明

    任务名称

    用户自定义名称。

    镜像

    支持选择公共镜像、自定义镜像或私有镜像地址。

    • 公共镜像:平台内的预置镜像,支持 TensorFlow、Pytorch、Jupyter 等。

    • 自定义镜像:用于基于预置镜像或 Dockerfile 构建的镜像

    • 镜像地址:用户的私有镜像仓库地址,若设置有密码,则需勾选有密码并输入用户名和密码,获取相应镜像。

    存储与数据(选填)

    选择数据集所处的用户目录,以及相应的挂载目录。如训练模型所需的图库、语料库等。

    代码

    用户上传需要执行的代码文件。点击上传选择待使用的代码文件即可。若使用平台提供的公共镜像,则相关文件会挂载到容器中的指定目录下,默认为 /root/code

    如上传一个主代码文件为 main.py,将自动挂载至 /root/code/main.py 目录。

    说明

    若有多个子代码文件,须同步上传。

    启动命令

    根据用户上传的代码文件,输入相应文件的运行命令,若使用平台提供的公共镜像,默认工作目录为 root。自定义镜像则根据用户设置为准。
    如使用平台公共镜像,上传的代码文件为 main.py,可直接使用 python3 /root/code/main.py 命令。

    环境变量

    针对当前分布式训练任务,用户自定义配置的环境变量。任务提交时,系统也会自动注入相应的系统变量,可参考环境变量相关章节内容

    TersorBoard

    用户启动 TensorBoard 可查看任务结果详情,任务在运行完成后,可通过 TensorBoard 查看。

    说明

    开启后用户需要编写代码将日志写入环境变量 TENSORBOARD_LOG_PATH 所对应的路径。

    自动重试

    当任务或容器组运行过程中出现问题导致失败,系统将自动迁移任务或容器组到其他机器,使得任务继续开始运行。

    • 若选择开启,则需设置相应的重试次数。

    • 若选择关闭,任务失败后,系统不会重试。

    超时配置

    配置任务可以运行的最大时间,超过此时间,任务无论在什么状态下,都将自动取消。

    框架

    训练任务所需的 ML 架构,目前支持 TensorFlow、PyTorch、MXNet、MPI、XGBoost 等。

    资源组

    支持用户选择公共资源池我的资源组

    • 公共资源池:共享资源池,用户可直接勾选相应的资源类型用于训练任务。任务运行完成后将根据实际使用时长进行扣费。

    • 我的资源组:用户的专属资源,可提前创建并申请资源。若选择我的资源组,需指定资源组后,配置以下参数。

      • 节点配置:支持单节点多节点

      • 选择单节点指定节点并配置使用卡数,其中使用卡数为训练任务使用的 GPU 卡数,可使用 0 卡数。

      • 若选择多节点,则需配置节点数量

  5. 返回分布式训练任务列表页面,已创建成功的训练任务显示在列。