TensorFlow

TensorFlow 是一款常用的开源机器学习框架,其支持分布式计算,可以在多台计算机上并行训练模型,提高训练速度和可扩展性。

PyTorch

PyTorch 是一个开源的机器学习库,它提供了丰富的工具和接口,用于构建和训练各种深度学习模型。为用户提供了具有易用性和灵活性,且支持动态图和静态图的混合编程方式。其具有强大的 GPU 加速支持能力,可充分利用 GPU 的并行计算能力来加速深度学习模型的训练和推理。

PaddlePaddle

PaddlePaddle(百度飞桨)是一个开源的深度学习框架,提供高性能的计算库和算法,支持 GPU 和多 GPU 加速可显著的提高模型训练和推理速度。

Horovod

Horovod 具有分布式训练性能高且对训练代码的改动少的特点,其是对底层通信库(MPI、NCCL、Gloo 等)进行封装,形成的一套支持 TensorFlow, PyTorch, MXNet 等多种深度学习框架的分布式训练框架。

并行文件存储

并行文件存储(Elastic Parallel File System,EPFS)是 QingCloud 云平台提供的并行文件系统服务,用于面向超级计算服务以及 AI 模型训练等高性能场景。