环境变量
更新时间:2024-06-20 11:03:08
PDF
提交分布式训练任务时,系统会构建容器计算环境和设置相应的环境变量,该章节用于介绍常见的环境变量,用户也可根据实际训练任务自定义环境变量。
通用环境变量
变量名 | 说明 |
---|---|
TENSORBOARD_LOG_PATH |
TensorBoard 日志存放路径,若需要使用 TensorBoard 查看任务训练详情,需要用户在代码中将日志文件指定输出到该环境变量对应的路径下。 |
PyTorch 环境变量
变量名 | 说明 |
---|---|
MASTER_ADDR |
分布式训练中主节点(master node)的 IP 地址或主机名。如,tn-xxxxx-worker-0。 |
MASTER_PORT |
主节点上用于通信的端口号。 |
WORLD_SIZE |
参与分布式训练的总节点数,即工作节点的数量加上主节点。例如,如果有 1 个主节点和 3 个工作节点,则 WORLD_SIZE 应设置为 4。 |
RANK |
当前节点在分布式训练中的唯一标识符或等级。主节点的 RANK 通常设置为 0,而工作节点的 RANK 从 1 开始递增。 |