Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
¿Es la alineación en línea el único camino a seguir a pesar de ser lenta y costosa computacionalmente?
Inspirados por la teoría de perspectivas, proporcionamos una explicación centrada en el ser humano de por qué la alineación en línea (por ejemplo, GRPO) supera a la alineación fuera de línea (por ejemplo, DPO, KTO) y mostramos empíricamente cómo cerrar la brecha entre en línea y fuera de línea con Humanline, un diseño simple pero consistentemente efectivo en dos partes.
💡Hallazgo principal: Aplicar humanline sobre objetivos fuera de línea puede rendir al mismo nivel que sus contrapartes en línea tanto en el seguimiento de instrucciones como en el razonamiento matemático. ¡Ganancias consistentes en diferentes objetivos, familias de modelos y tamaños de modelos!
Más en hilos 🧵

Parte superior
Clasificación
Favoritos