Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
DiLoCo es un método de optimización distribuida para entrenar LLM en redes lentas o separadas geográficamente. Cada trabajador ejecuta muchos pasos locales de AdamW en sus propios datos; solo cada ~ 500 pasos los trabajadores envían "pseudo-gradientes" compactos a un optimizador global de momento de Nesterov, reduciendo la comunicación en órdenes de magnitud.
Este diseño de sincronización poco frecuente hace que la capacitación sea factible en enlaces deficientes y resistente a los rezagados o al cambio de recursos, aunque todos los trabajadores aún deben reunirse en el mismo paso global, lo que puede dejar inactivas las máquinas rápidas.
1.12K
Populares
Ranking
Favoritas