El informe técnico de @Meituan_LongCat LongCat-Flash es increíblemente bueno y lleno de novedades. El modelo es un MoE activo pasivo de 560B ~27B con un número adaptativo de parámetros activos según el contexto gracias al experto Zero-Computational. 1) Nueva arquitectura > capas tienen 2 bloques de atención y FFN y MoE, de esa manera puedes superponer las 2 comunicaciones de todo a todo. (además son solo 28 capas, pero hay que tener en cuenta los 2 bloques de atención). > Agregan el experto en computación cero de que los tokens pueden elegir y no hacer nada, algo así como un "sumidero" para tokens fáciles. > Para el equilibrio de carga, tienen una pérdida auxiliar similar a dsv3 libre para establecer el experto real/falso promedio por token. Aplican un programa de decaimiento a esta actualización de sesgo. También controlan el saldo de pérdidas. 2) Escala > Hicieron cambios en MLA / MoE para tener alineación de varianza en el inicio. Las ganancias son bastante impresionantes en la Figura 5, pero no sé hasta qué punto esto tiene impacto más adelante. > crecimiento del modelo es bastante bueno, primero entrenan un modelo 2 veces más pequeño y luego "cuando está lo suficientemente entrenado" (un poco poco claro aquí cuántos tokens B) inician el modelo final simplemente apilando las capas del modelo más pequeño. > Usaron papel @_katieeverett @Locchiu y al. para tener transferencia de hiperparámetros con SP en lugar de muP para el modelo ig 2 veces más pequeño. 3) Estabilidad > Rastrean la relación de norma de gradiente y la similitud del coseno entre expertos para ajustar el peso de la pérdida de equilibrio de carga (recomiendan la relación de norma de gradiente <0.1). > Para evitar grandes activaciones, aplican una pérdida z al estado oculto, con un coef bastante pequeño (otra alternativa a qk-clip/norm). > Establecen Adam épsilon en 1e-16 y muestran que desea que sea más bajo que el rango RMS de gradiente. 4) Otros > Entrenan en tokens 20T para la fase 1, "múltiples T de tokens" para el entrenamiento medio en datos STEM/código (70% de la mezcla), 100B para una extensión de contexto largo sin hilo (80B para 32k, 20B para 128k). Los documentos de contexto largo representan el 25% de la mezcla (no estoy seguro de si es % de documentos o tokens, lo que cambia mucho aquí). > canalización de datos de preentrenamiento es extracción de contexto, filtrado de calidad, desduplicación. > buen apéndice donde muestran que comparan top_k necesarios para diferentes puntos de referencia (MMLU más alto con 8.32, GSM8K más bajo con 7.46). También comparan la asignación de tokens en capas profundas/poco profundas. > Lanzan dos nuevos puntos de referencia: Meeseeks (IF multiturno) y VitaBench (escenario comercial del mundo real). > Muchos detalles en la infraestructura / inferencia con información sobre la aceptación de la decodificación especulativa, la cuantificación, la implementación, la optimización del kernel, la superposición de comunicaciones, etc. > Lista de los diferentes artículos relevantes en hilo 🧵
82.24K