常用概念
更新时间:2024-03-26 15:03:08
PDF
TensorFlow
TensorFlow 是一款常用的开源机器学习框架,其支持分布式计算,可以在多台计算机上并行训练模型,提高训练速度和可扩展性。
PyTorch
PyTorch 是一个开源的机器学习库,它提供了丰富的工具和接口,用于构建和训练各种深度学习模型。为用户提供了具有易用性和灵活性,且支持动态图和静态图的混合编程方式。其具有强大的 GPU 加速支持能力,可充分利用 GPU 的并行计算能力来加速深度学习模型的训练和推理。
PaddlePaddle
PaddlePaddle(百度飞桨)是一个开源的深度学习框架,提供高性能的计算库和算法,支持 GPU 和多 GPU 加速可显著的提高模型训练和推理速度。
Horovod
Horovod 具有分布式训练性能高且对训练代码的改动少的特点,其是对底层通信库(MPI、NCCL、Gloo 等)进行封装,形成的一套支持 TensorFlow, PyTorch, MXNet 等多种深度学习框架的分布式训练框架。
并行文件存储
并行文件存储(Elastic Parallel File System,EPFS)是 QingCloud 云平台提供的并行文件系统服务,用于面向超级计算服务以及 AI 模型训练等高性能场景。