基于 minGPT 创建 PyTorch 分布式训练任务

更新时间：2024-06-20 11:03:08

环境准备

获取示例代码。
创建文件存储，并将上一步获取的示例代码上传至指定文件目录下。
创建 PyTorch 镜像的容器实例。
注意
容器实例的存储与数据的数据集必须选择上一步中上传有示例代码的用户目录。

容器实例的镜像必须选择 Pytorch。
使用 jupyter 登录容器实例，在 Terminal 内执行如下命令，安装环境依赖。
```
pip install -r /root/epfs/examples/distributed/minGPT-ddp/requirements.txt
```
将安装了环境依赖的容器实例，保存为自定义镜像。

注意
容器实例的存储与数据的数据集必须选择上一步中上传有示例代码的用户目录。容器实例的镜像必须选择 Pytorch。

说明
如果 PyTorch 作业以分布式运行, 其中 PyTorch 所需要的分布式参数将会以环境变量的形式自动注入到运行的环境中。

根据上述步骤配置完成相关参数，计算资源中的资源组选择公共资源池，并选择GPU 数量为 1 的资源类型，并设置数量为 1。点击确定，即可提交单节点单卡训练。

根据上述步骤配置完成相关参数，计算资源中的资源组选择公共资源池，并选择GPU 数量大于 1 的资源类型，并设置数量为 1。点击确定，即可提交单节点多卡训练。

根据上述步骤配置完成相关参数，计算资源中的资源组选择公共资源池，并选择GPU 数量为 1 的资源类型，并设置数量大于 1。点击确定，即可提交多节点单卡训练。

根据上述步骤配置完成相关参数，计算资源中的资源组选择公共资源池，并选择GPU 数量大于 1 的资源类型，并设置数量大于 1。点击确定，即可提交多节点多卡训练。

等待训练任务运行结束，查看任务详情。若训练过程中已将 Tensorboard 日志写入到环境变量TENSORBOARD_LOG_PATH 所指定的地址, 任务训练结束后可以点击 Tensorboard 按钮，打开 Tensorboard 查看训练过程。

最后训练任务输出的 AI 模型，会保存到用户指定的路径中，可在存储与数据服务中查看。建议用户将相应模型保存到离线存储中方便后续使用。