提交分布式训练任务时,系统会构建容器计算环境和设置相应的环境变量,该章节用于介绍常见的环境变量,用户也可根据实际训练任务自定义环境变量。

通用环境变量

变量名 说明

TENSORBOARD_LOG_PATH

TensorBoard 日志存放路径,若需要使用 TensorBoard 查看任务训练详情,需要用户在代码中将日志文件指定输出到该环境变量对应的路径下。

PyTorch 环境变量

变量名 说明

MASTER_ADDR

分布式训练中主节点(master node)的 IP 地址或主机名。如,tn-xxxxx-worker-0。

MASTER_PORT

主节点上用于通信的端口号。

WORLD_SIZE

参与分布式训练的总节点数,即工作节点的数量加上主节点。例如,如果有 1 个主节点和 3 个工作节点,则 WORLD_SIZE 应设置为 4。

RANK

当前节点在分布式训练中的唯一标识符或等级。主节点的 RANK 通常设置为 0,而工作节点的 RANK 从 1 开始递增。