Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
DiLoCo is een gedistribueerde optimalisatiemethode voor het trainen van LLM's over langzame of geografisch gescheiden netwerken. Elke werknemer voert veel lokale AdamW-stappen uit op zijn eigen gegevens; slechts om de ~500 stappen sturen de arbeiders compacte "pseudo-gradiënten" naar een wereldwijde Nesterov-momentumoptimalisator, waardoor de communicatie met ordes van grootte wordt verminderd.
Dit ontwerp met onregelmatige synchronisatie maakt training haalbaar over slechte verbindingen en veerkrachtig tegen achterblijvers of verschuivende middelen, hoewel alle werknemers nog steeds op dezelfde globale stap moeten samenkomen, waardoor snelle machines inactief kunnen blijven.
1,14K
Boven
Positie
Favorieten