Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
¿Es la alineación en línea el único camino a seguir a pesar de ser lenta y computacionalmente costosa?
Inspirados en la teoría de los prospectos, proporcionamos una explicación centrada en el ser humano de por qué la alineación en línea (por ejemplo, GRPO) supera a la alineación fuera de línea (por ejemplo, DPO, KTO) y mostramos empíricamente cómo cerrar la brecha en línea y fuera de línea con Humanline, un diseño de dos partes simple pero consistentemente efectivo.
💡Principal hallazgo: La aplicación de la línea humana sobre los objetivos fuera de línea puede funcionar a la par con sus contrapartes en línea tanto en el seguimiento de instrucciones como en el razonamiento matemático. ¡Ganancias consistentes en diferentes objetivos, familias de modelos y tamaños de modelos!
Más en hilos 🧵

Populares
Ranking
Favoritas