容器实例常用来做算法开发和模型微调,在少量训练数据的前提下可以选择单卡、或者整机 8 卡的实例申请使用,提供本地数据盘,和关联文件存储,使用 Jupyter 进行算法开发、微调,可将成果输出到挂载的共享文件存储中,使用完成后下载成果,释放容器实例。

前提条件

  • 已经获取 QingCloud 管理控制台账户和密码。

  • 已完成个人实名认证且账户余额大于 0 元。

操作步骤

  1. 登录 QingCloud 管理控制台。

  2. 在顶部导航栏,点击产品与服务 > AI 智算服务 > AI 智算平台,进入 AI 智算平台总览页面。

  3. 在左侧导航栏,选择开发与训练 > 容器实例,默认进入容器实例列表页面。

    develop training k8s create 1
  4. 点击创建容器实例,在弹出创建容器实例页面,配置各项参数,点击确定

    参考以下参数说明进行配置。

    参数 说明

    实例名称

    用户自定义名称,便于区分。

    资源

    若选择新购,需配置以下参数。

    • 计费模式:默认为按需计费。

    • 资源类型:支持选择高速训练、共享 GPU 或 CPU 计算类型。根据资源类型的不同,其 GPU 型号、CPU 型号、内存等具有一定的差异,用户根据实际需要选择相应资源即可。

    若选择我的资源组,需配置以下参数。

    • 资源组:平台内已创建完成的,且申请了计算资源的可用资源组。

    • 指定节点:根据所选资源组,指定相应计算节点,并设置其 vCPU 核数、内存、系统盘大小、GPU 个数(选填)、数据盘大小(选填)。

    存储与数据(选填)

    选择数据集所处的用户目录,以及相应的挂载目录。

    镜像

    支持选择公共镜像、自定义镜像或私有镜像地址。

    • 公共镜像:平台内的预置镜像,支持 TensorFlow、Pytorch、Jupyter 等。

    • 自定义镜像:用户基于预置镜像或 Dockerfile 构建的镜像

    • 镜像地址:公有或用户私有镜像地址,若设置有密码,则需勾选有密码并输入用户名和密码,获取相应镜像。

  5. 返回容器实例页面,等待容器实例创建完成。已创建成功的实例显示在列,且状态为运行中

    develop training k8s create 3
  6. 容器实例创建完成后,可通过 Web 连接或 jupyter 方式登录。