¿Es la alineación en línea el único camino a seguir a pesar de ser lenta y computacionalmente costosa? Inspirados en la teoría de los prospectos, proporcionamos una explicación centrada en el ser humano de por qué la alineación en línea (por ejemplo, GRPO) supera a la alineación fuera de línea (por ejemplo, DPO, KTO) y mostramos empíricamente cómo cerrar la brecha en línea y fuera de línea con Humanline, un diseño de dos partes simple pero consistentemente efectivo. 💡Principal hallazgo: La aplicación de la línea humana sobre los objetivos fuera de línea puede funcionar a la par con sus contrapartes en línea tanto en el seguimiento de instrucciones como en el razonamiento matemático. ¡Ganancias consistentes en diferentes objetivos, familias de modelos y tamaños de modelos! Más en hilos 🧵