DiLoCo ist eine Methode zur verteilten Optimierung zum Training von LLMs in langsamen oder geografisch getrennten Netzwerken. Jeder Worker führt viele lokale AdamW-Schritte für seine eigenen Daten aus. Nur alle ~500 Schritte senden die Arbeiter kompakte "Pseudogradienten" an einen globalen Nesterov-Momentum-Optimierer, was die Kommunikation um Größenordnungen reduziert. Dieses Design mit seltener Synchronisierung macht das Training über schlechte Verbindungen hinweg möglich und widerstandsfähig gegenüber Nachzüglern oder sich verschiebenden Ressourcen, obwohl sich alle Mitarbeiter immer noch am selben globalen Schritt treffen müssen, was dazu führen kann, dass schnelle Maschinen im Leerlauf bleiben.
1,13K