Distributed Training System Overview
1 动机:解决单机性能瓶颈
随着模型大型化,比如目前的 Chatgpt 等大模型,其含有大量参数和复杂的结构。
大模型的训练过程需要海量的内存和计算资源,而单机性能明显不能满足。
所以需要构建分布式训练系统,将机器学习的任务拆分成为多个子任务,并且分配到多个计算节点,从而加速训练、解决计算瓶颈。
随着模型大型化,比如目前的 Chatgpt 等大模型,其含有大量参数和复杂的结构。
大模型的训练过程需要海量的内存和计算资源,而单机性能明显不能满足。
所以需要构建分布式训练系统,将机器学习的任务拆分成为多个子任务,并且分配到多个计算节点,从而加速训练、解决计算瓶颈。