DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

DiLoCo is een gedistribueerde optimalisatiemethode voor het trainen van LLM's over langzame of geografisch gescheiden netwerken. Elke werknemer voert veel lokale AdamW-stappen uit op zijn eigen gegevens; slechts om de ~500 stappen sturen de arbeiders compacte "pseudo-gradiënten" naar een wereldwijde Nesterov-momentumoptimalisator, waardoor de communicatie met ordes van grootte wordt verminderd. Dit ontwerp met onregelmatige synchronisatie maakt training haalbaar over slechte verbindingen en veerkrachtig tegen achterblijvers of verschuivende middelen, hoewel alle werknemers nog steeds op dezelfde globale stap moeten samenkomen, waardoor snelle machines inactief kunnen blijven.

1,14K

Boven

Positie

Favorieten