Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
DiLoCo adalah metode pengoptimalan terdistribusi untuk melatih LLM di seluruh jaringan yang lambat atau terpisah secara geografis. Setiap pekerja menjalankan banyak langkah AdamW lokal pada datanya sendiri; hanya setiap ~500 langkah pekerja mengirim "gradien semu" yang ringkas ke pengoptimal momentum Nesterov global, memangkas komunikasi dengan urutan besarnya.
Desain sinkronisasi yang jarang ini membuat pelatihan layak melalui tautan yang buruk dan tangguh terhadap orang yang tertinggal atau sumber daya yang bergeser, meskipun semua pekerja masih harus bertemu pada langkah global yang sama, yang dapat membuat alat berat cepat menganggur.
1,11K
Teratas
Peringkat
Favorit