应用场景

使用 GPU 云服务器进行深度学习等需要高速的数据传输能力的作业时,需要将集群的文件存储与 GPU 云服务之间建立 IB 网络,可参考如下步骤进行。

操作步骤

  1. 登录 QingCloud 管理控制台,点击产品与服务 > 计算 > 云服务器

  2. 在云服务器列表页面,点击+创建,弹出的购买云服务器的页面中。

  3. 基础配置页面,选择 GPU 加速型 g2na100_ib 类型的云服务器,标准镜像选择 CentOS 且 支持 lustre 客户端支持 IB 网络,系统盘和数据盘根据实际需要设置大小即可。

    lustre gpu 1
  4. 点击下一步:网络配置,选择 VPC 网络,如无可用的 VPC 网络,点击创建新 VPC 网络进行创建即可。

    说明

    弹性公网 IP 和安全组均无需绑定。

    lustre gpu 9
  5. 点击下一步:系统配置,用户可根据实际情况自定义云服务器名称,登录方式选择密码登录,设置密码后,点击创建主机即可。

    lustre gpu 10
  6. GPU 云服务器创建完成后,在云服务器管理列表内查看该云服务器的内网 IP 地址并记录。

    lustre gpu 6
  7. 点击顶部导航栏产品与服务 > 存储服务 > 文件存储 EPFS

  8. 在文件存储 EPFS 的概览页面,快速创建窗口中,点击去创建

    lustre gpu 2
  9. 在弹出的创建挂载点的窗口中,配置各项参数,点击确定即可。

    lustre gpu 3

    参数说明

    参数 说明

    存储配额

    文件存储的容量

    共享目录

    共享目录名称,用户自定义,须全局唯一

    名称

    文件存储的名称,用户自定义

    描述

    选填项,用户根据实际需要对当前创建的文件存储进行描述说明

  10. 创建完成的挂载点,显示在文件存储 EPFS 的管理界面。

    lustre gpu 4
  11. 点击已创建完成的挂载点的名称/ID,进入其详情页面。

  12. 在文件存储详情页面中,选择权限组页签,并点击添加规则

    lustre gpu 5
  13. 在弹出的添加规则的窗口中,填入步骤 6 记录的 GPU 云服务器的内网 IP 地址,点击确定即可。

    lustre gpu 7
  14. 返回云服务器管理页面,点击云服务器名称下的远程登录图标remote local

  15. 在弹出的远程连接窗口中,选择 webSSH 远程连接,输入创建云服务器设置的用户名密码,点击确定即可。

    lustre gpu 8
  16. 在弹出的终端页面,执行如下命令,将文件存储系统挂载至相应的挂载点上。

    // 创建挂载点
    $ mkdir /mnt/data_lustre
    
    // 执行挂载命令
    $  mount -t  lustre 10.103.100.93@o2ib:10.103.100.94@o2ib:/es01  /mnt/data_lustre
    说明

    /mnt/data_lustre 为挂载点名称,可根据实际情况进行修改。