创建分布式训练 - 公有云文档中心

前提条件

在创建训练任务页面，配置各项参数，点击确定即可。

参考以下参数说明进行配置。

参数说明

任务名称

用户自定义名称。

镜像

支持选择公共镜像、自定义镜像或私有镜像地址。

存储与数据（选填）

选择数据集所处的用户目录，以及相应的挂载目录。如训练模型所需的图库、语料库等。

代码

用户上传需要执行的代码文件。点击上传选择待使用的代码文件即可。若使用平台提供的公共镜像，则相关文件会挂载到容器中的指定目录下，默认为 /root/code。

如上传一个主代码文件为 main.py，将自动挂载至 /root/code/main.py 目录。

说明

若有多个子代码文件，须同步上传。

启动命令

根据用户上传的代码文件，输入相应文件的运行命令，若使用平台提供的公共镜像，默认工作目录为 root。自定义镜像则根据用户设置为准。
如使用平台公共镜像，上传的代码文件为 main.py，可直接使用 python3 /root/code/main.py 命令。

环境变量

针对当前分布式训练任务，用户自定义配置的环境变量。任务提交时，系统也会自动注入相应的系统变量，可参考环境变量相关章节内容。

TersorBoard

用户启动 TensorBoard 可查看任务结果详情，任务在运行完成后，可通过 TensorBoard 查看。

说明

开启后用户需要编写代码将日志写入环境变量 TENSORBOARD_LOG_PATH 所对应的路径。

自动重试

当任务或容器组运行过程中出现问题导致失败，系统将自动迁移任务或容器组到其他机器，使得任务继续开始运行。

超时配置

配置任务可以运行的最大时间，超过此时间，任务无论在什么状态下，都将自动取消。

框架

训练任务所需的 ML 架构，目前支持 TensorFlow、PyTorch、MXNet、MPI、XGBoost 等。

资源组

支持用户选择公共资源池或我的资源组。

公共资源池：共享资源池，用户可直接勾选相应的资源类型用于训练任务。任务运行完成后将根据实际使用时长进行扣费。
我的资源组：用户的专属资源，可提前创建并申请资源。若选择我的资源组，需指定资源组后，配置以下参数。
- 节点配置：支持单节点或多节点。
- 选择单节点需指定节点并配置使用卡数，其中使用卡数为训练任务使用的 GPU 卡数，可使用 0 卡数。
- 若选择多节点，则需配置节点数量。