DiLoCo adalah metode pengoptimalan terdistribusi untuk melatih LLM di seluruh jaringan yang lambat atau terpisah secara geografis. Setiap pekerja menjalankan banyak langkah AdamW lokal pada datanya sendiri; hanya setiap ~500 langkah pekerja mengirim "gradien semu" yang ringkas ke pengoptimal momentum Nesterov global, memangkas komunikasi dengan urutan besarnya. Desain sinkronisasi yang jarang ini membuat pelatihan layak melalui tautan yang buruk dan tangguh terhadap orang yang tertinggal atau sumber daya yang bergeser, meskipun semua pekerja masih harus bertemu pada langkah global yang sama, yang dapat membuat alat berat cepat menganggur.
1,11K