DiLoCo是一种分布式优化方法,用于在缓慢或地理分散的网络上训练大型语言模型(LLMs)。每个工作节点在自己的数据上运行许多本地的AdamW步骤;只有每大约500步,工作节点才会向一个全局的Nesterov动量优化器发送紧凑的“伪梯度”,从而大幅减少通信量。 这种不频繁同步的设计使得在不良链接上进行训练成为可能,并且对滞后者或资源变化具有韧性,尽管所有工作节点仍必须在同一全局步骤上会合,这可能会导致快速机器处于空闲状态。
1.12K