前提条件

已成功创建分布式训练任务。

操作步骤

  1. 登录 QingCloud 管理控制台。

  2. 在顶部导航栏,点击产品与服务 > AI 智算服务 > AI 智算平台,进入 AI 智算平台总览页面。

  3. 在左侧导航栏,选择开发与训练 > 分布式训练,默认进入分布式训练任务列表页面。

  4. 在分布式训练列表页面,点击指定任务所在行右侧操作列中的任务详情,进入其基本信息页面。

    develop training job view 1
  5. 在任务基本信息页面,可查看任务信息任务运行信息以及计费资源信息。

  6. 在任务详情页面,点击容器组(pods)页签,可查看当前训练任务所使用的容器组信息,包括容器组名称/ID状态、容器组内节点名称/IP 地址已分配的 GPU 卡数GPU 利用率GPU 显存利用率CPU 用量内存用量、容器组创建和更新时间以及监控信息。

  7. 在任务详情页面,点击日志页签,可查看当前训练任务的日志输出。任务完成后,相应任务的 pods 将会消失。