Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Je online zarovnání jedinou cestou, kterou se vydat, přestože je pomalé a výpočetně náročné?
Inspirováni teorií prospektů poskytujeme vysvětlení zaměřené na člověka, proč online zarovnání (např. GRPO) překonává offline zarovnání (např. DPO, KTO), a empiricky ukazujeme, jak překlenout mezeru mezi online a offline pomocí Humanline, jednoduchého, ale konzistentně efektivního dvoudílného designu.
💡Hlavní zjištění: Použití humanline nad rámec offline cílů může fungovat na stejné úrovni jako jejich online protějšky jak v dodržování pokynů, tak v matematickém uvažování. Konzistentní zisky napříč různými cíli, řadami modelů a velikostmi modelů!
Více v vláknech 🧵

Top
Hodnocení
Oblíbené