本章节介绍弹性高性能计算 EHPC 的相关功能,包含集群管理、作业管理、文件存储、软件管理、资源管理和操作日志。

集群

集群是用于高性能并行计算的资源集,由云平台弹性计算实例组成,包含了调度管理集群资源的高性能调度器,以及运行业务所需的软件栈,解决超大规模的科学,工程和商业问题。

EHPC 集群根据需要配置专属的计算资源,可以根据不同业务模式进行选择。支持虚拟机和物理机两种类型的计算资源。

作业管理

作业管理系统会根据一个集群上的可用计算节点的计算资源管理和调度所有计算作业。

作业管理系统可以根据用户的需求,统一管理和调度集群的软硬件资源,保证用户作业公平合理地共享集群资源,提高系统利用率和吞吐率。

文件存储

文件存储 EPFS(Elastic Parallel File System)是基于 Lustre 协议的网络共享的文件存储服务。用户可以创建自己的文件存储挂载点,在创建 EHPC 集群和图形节点时可以选择挂载此共享存储,集群中的所有节点均可连接该存储,从而实现多节点间的数据共享。

文件存储 EPFS 采用全闪服务器,用户可以按需创建自己的挂载点,支持扩容、按容量计费。

软件中心

软件中心是平台提供的共享软件仓库,所有的 EHPC 集群都挂载了软件仓库,用户可以在提交作业时指定运行的软件,减少了软件安装调试的一些时间。

用户可以收藏自己行业常用的软件,也可以通过集群的登录节点将所需的软件安装到自己的存储中,商用软件由用户自行解决版权问题。

资源管理

集群资源管理包含集群节点、队列和用户管理。

  • 节点

    节点是集群的构成单位,用户可以根据需求选择不同配置的节点,同时用户可以给登录节点绑定公网 IP 进行外网登录,并可以通过 sftp 实现本地大型作业文件的上传和下载工作。

  • 队列

    队列由集群中的计算节点组成,一个队列可以由 1 个或多个计算节点构成,根据实际应用场景进行配置。

  • 用户管理

    用户是集群节点中的用户,可以通过密码登录到节点中,具有相应的权限,控制台上支持新增用户、设置用存储目录、以及重置用户密码和删除用户等功能。

操作日志

对集群、作业等操作均记录操作日志,出现问题时可以结合操作日志进行排查。