创建存储

  1. 登录 QingCloud 管理控制台。

  2. 在顶部导航栏,点击产品与服务 > AI 智算平台 > AI 智算平台,进入其总览页面。

  3. 在左侧导航栏,选择存储与数据服务,进行相应管理页面。

  4. 存储与数据服务页面,点击创建用户目录,在弹出的创建用户目录窗口中,输入用户目录,设置存储配额,点击确定即可。

    注意
    • 此处用户目录名需要全局唯一,不可重名。

    • 每个用户只可创建一个用户目录。

  5. 返回存储与数据服务管理页面,可查看已创建完成的文件目录,状态为正常

    res manage stor create 3

上传文件

  1. 在左侧导航栏,选择存储与数据服务。在文件目录区域,选择待上传本地文件的目录。

    res manage upload 1
  2. 点击上传本地文件,将文件拖拽至上传文件窗口,或点击上传即可。

  3. 关闭上传文件窗口,文件已上传至指定文件夹下。

创建容器实例

  1. 在左侧导航栏,选择容器实例,默认进入容器实例列表页面。

    develop training k8s create 1
  2. 点击创建容器实例,在弹出创建容器实例页面,配置各项参数,点击确定

    参考以下参数说明进行配置。

    参数 说明

    实例名称

    用户自定义名称,便于区分。

    资源

    若选择新购,需配置以下参数。

    • 计费模式:默认为按需计费。

    • 资源类型:支持选择高速训练、共享 GPU 或 CPU 计算类型。根据资源类型的不同,其 GPU 型号、CPU 型号、内存等具有一定的差异,用户根据实际需要选择相应资源即可。

    若选择我的资源组,需配置以下参数。

    • 资源组:平台内已创建完成的,且申请了计算资源的可用资源组。

    • 指定节点:根据所选资源组,指定相应计算节点,并设置其 vCPU 核数、内存、系统盘大小、GPU 个数(选填)、数据盘大小(选填)。

    存储与数据(选填)

    选择数据集所处的用户目录,以及相应的挂载目录。

    镜像

    支持选择公共镜像、自定义镜像或私有镜像地址。

    • 公共镜像:平台内的预置镜像,支持 TensorFlow、Pytorch、Jupyter 等。

    • 自定义镜像:用户基于预置镜像或 Dockerfile 构建的镜像

    • 镜像地址:公有或用户私有镜像地址,若设置有密码,则需勾选有密码并输入用户名和密码,获取相应镜像。

  3. 返回容器实例页面,等待容器实例创建完成。已创建成功的实例显示在列,且状态为运行中

    develop training k8s create 3

登录容器实例并适配环境

  1. 点击指定容器实例快捷访问列中的 jupyter,跳转至 JupyterLab 页面。JupyterLab 的详细使用方法,可参考 JupyterLab 使用介绍相关内容。

    注意
    • 若使用自定义镜像创建容器实例,则需确保该镜像文件包含 JupyterLab 服务,否则无法打开 JupyterLab 页面。

    • 若无法打开 JupyterLab 页面,请检查是否关闭浏览器的弹窗拦截。

  2. 在 JupyterLab 的工作区域,点击 Other > Terminal 打开终端,登录至容器实例后台。

    develop training k8s login 2
  3. 用户可执行如下命令,查看系统默认源。

    cat /etc/apt/sources.list
  4. 可使用 apt 命令,安装相应工具以适配训练任务所需的软件环境。

    如安装网络工具集,可依次执行如下命令。用户可根据实际训练任务所需的软件环境安装相应工具,此处只做示例。

    apt install net-tools
    apt install iproute2