Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
DiLoCo est une méthode d’optimisation distribuée pour l’entraînement des LLM sur des réseaux lents ou géographiquement séparés. Chaque travailleur exécute de nombreuses étapes AdamW locales sur ses propres données ; ce n’est que tous les ~500 pas que les travailleurs envoient des « pseudo-gradients » compacts à un optimiseur global de quantité de mouvement Nesterov, réduisant la communication de plusieurs ordres de grandeur.
Cette conception de synchronisation peu fréquente rend la formation réalisable sur des liaisons médiocres et résiliente face aux retardataires ou aux ressources changeantes, bien que tous les travailleurs doivent toujours se réunir à la même étape mondiale, ce qui peut laisser les machines rapides inactives.
1,14K
Meilleurs
Classement
Favoris