DiLoCo er en distribuert optimaliseringsmetode for opplæring av LLM-er på tvers av trege eller geografisk atskilte nettverk. Hver arbeider kjører mange lokale AdamW-trinn på sine egne data; bare hvert ~500 skritt sender arbeiderne kompakte «pseudo-gradienter» til en global Nesterov-momentum-optimaliserer, og kutter kommunikasjonen i størrelsesordener. Denne sjelden synkroniseringsdesignen gjør opplæring mulig over dårlige koblinger og motstandsdyktig mot etternølere eller skiftende ressurser, selv om alle arbeidere fortsatt må møtes på samme globale trinn, noe som kan etterlate raske maskiner inaktive.
1,11K