Je online zarovnání jedinou cestou, kterou se vydat, přestože je pomalé a výpočetně náročné? Inspirováni teorií prospektů poskytujeme vysvětlení zaměřené na člověka, proč online zarovnání (např. GRPO) překonává offline zarovnání (např. DPO, KTO), a empiricky ukazujeme, jak překlenout mezeru mezi online a offline pomocí Humanline, jednoduchého, ale konzistentně efektivního dvoudílného designu. 💡Hlavní zjištění: Použití humanline nad rámec offline cílů může fungovat na stejné úrovni jako jejich online protějšky jak v dodržování pokynů, tak v matematickém uvažování. Konzistentní zisky napříč různými cíli, řadami modelů a velikostmi modelů! Více v vláknech 🧵