查看任务详情
更新时间:2024-06-20 11:03:08
PDF
前提条件
已成功创建分布式训练任务。
操作步骤
-
登录 QingCloud 管理控制台。
-
在顶部导航栏,点击产品与服务 > AI 智算平台 > AI 智算平台,进入其总览页面。
-
在左侧导航栏,选择分布式训练,默认进入分布式训练任务列表页面。
-
在分布式训练列表页面,点击指定任务所在行右侧操作列中的任务详情,进入其基本信息页面。
-
在任务基本信息页面,可查看
任务信息
、任务运行信息
以及计费资源
信息。 -
在任务详情页面,点击容器组(pods)页签,可查看当前训练任务所使用的容器组信息,包括
容器组名称/ID
、状态
、容器组内节点名称/IP 地址
、已分配的 GPU 卡数
、GPU 利用率
、GPU 显存利用率
、CPU 用量
、内存用量
、容器组创建和更新时间
以及监控
信息。 -
在任务详情页面,点击日志页签,可查看当前训练任务的日志输出。任务完成后,相应任务的 pods 将会消失。