本章节介绍如何查看集群相关信息。

前提条件

已创建 AI 训练所需的集群。

操作步骤

  1. 登录管理控制台。

  2. 点击产品与服务 > 计算 > AI 算力平台,选择左侧导航栏集群管理

  3. 进入集群管理页面,用户可查看当前 AI 算力平台内已创建集群的基本信息节点列表以及用户与权限组等信息。

    cluster view 1

    页面信息说明

    类型 参数 说明

    基本信息

    集群名称

    创建当前 AI 算力集群时用户自定义的名称。

    集群状态

    • 创建中、安装中、初始化中:集群创建期间的状态,正在构建集群的计算节点,进行调度器、域账号服务等程序的安装,无需用户干预,预计 5 ~ 8 分钟。

    • 活跃:集群创建完毕处于可用状态。注意:这是集群唯一可以正常使用的状态。

    • 异常:可提交工单,技术支持团队会提供相应协助。

    • 已停止:集群节点已经停止服务,集群不计费,只收少量硬盘费用。

    • 删除中:集群在停机释放过程中。

    付费类型

    当前集群收费方式,支持包年包月按需计费。查看详细费用明细,可点击扣费信息的查看详情。

    集群版本

    当前 AI 算力集群的版本信息。

    集群描述

    针对当前 AI 算力集群的描述信息,用户自定义。

    申请时间

    当前集群申请创建的时间。

    调度器

    当前集群所使用的调度器,默认为 slurm。

    共享目录

    该集群挂载的共享存储目录路径名称。

    节点列表

    节点名称/ID

    集群内计算节点的名称和 ID。

    节点状态

    当前节点的状态,包括活跃等待中已停止

    节点服务状态

    当前节点上服务状态,包括正常不正常

    节点类型/配置

    • 该节点的类型,目前仅包括计算节点。

    • 该节点的 CPU、内存以及 GPU 的基本配置信息。

    IP

    当前节点的 IP 地址。

    操作

    针对当前节点可进行的其他操作,包括查看监控编辑重启等。

    用户与权限组

    用户名

    可登录当前集群的用户名,自定义。

    创建时间

    该用户的创建时间。

    挂载点

    该用户可使用的共享目录。

    操作

    可针对当前用户进行的操作,包括重置密码删除用户

视频教程

详细操作也可参考以下视频教程。