DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

DiLoCo est une méthode d’optimisation distribuée pour l’entraînement des LLM sur des réseaux lents ou géographiquement séparés. Chaque travailleur exécute de nombreuses étapes AdamW locales sur ses propres données ; ce n’est que tous les ~500 pas que les travailleurs envoient des « pseudo-gradients » compacts à un optimiseur global de quantité de mouvement Nesterov, réduisant la communication de plusieurs ordres de grandeur. Cette conception de synchronisation peu fréquente rend la formation réalisable sur des liaisons médiocres et résiliente face aux retardataires ou aux ressources changeantes, bien que tous les travailleurs doivent toujours se réunir à la même étape mondiale, ce qui peut laisser les machines rapides inactives.

1,14K

Meilleurs

Classement

Favoris