Är onlineanpassning den enda vägen att gå trots att det är långsamt och beräkningsmässigt dyrt? Inspirerade av prospektteori ger vi en människocentrerad förklaring till varför online-anpassning (t.ex. GRPO) överträffar offline-anpassning (t.ex. DPO, KTO) och visar empiriskt hur man kan överbrygga online-offline-klyftan med Humanline, en enkel men konsekvent effektiv tvådelad design. 💡Huvudresultat: Att tillämpa humanline ovanpå offline-mål kan prestera i nivå med sina online-motsvarigheter på både instruktionsföljning och matematiskt resonemang. Konsekventa vinster över olika målsättningar, modellfamiljer och modellstorlekar! Mer i trådar 🧵