DiLoCo es un método de optimización distribuida para entrenar LLM en redes lentas o separadas geográficamente. Cada trabajador ejecuta muchos pasos locales de AdamW en sus propios datos; solo cada ~ 500 pasos los trabajadores envían "pseudo-gradientes" compactos a un optimizador global de momento de Nesterov, reduciendo la comunicación en órdenes de magnitud. Este diseño de sincronización poco frecuente hace que la capacitación sea factible en enlaces deficientes y resistente a los rezagados o al cambio de recursos, aunque todos los trabajadores aún deben reunirse en el mismo paso global, lo que puede dejar inactivas las máquinas rápidas.
1.12K