Er online justering den eneste veien å gå til tross for at den er treg og beregningsmessig dyr? Inspirert av prospektteori gir vi en menneskesentrert forklaring på hvorfor online alignment (f.eks. GRPO) overgår offline alignment (f.eks. DPO, KTO) og viser empirisk hvordan man kan lukke gapet mellom online og offline med Humanline, et enkelt, men konsekvent effektivt todelt design. 💡Hovedfunn: Å bruke humanline på toppen av offline-mål kan fungere på nivå med sine online kolleger på både instruksjonsfølging og matematisk resonnement. Konsekvente gevinster på tvers av ulike mål, modellfamilier og modellstørrelser! Mer i tråder 🧵