Is online afstemming de enige weg om te gaan, ondanks dat het traag en computationeel duur is? Geïnspireerd door de prospecttheorie bieden we een mensgerichte uitleg voor waarom online afstemming (bijv. GRPO) beter presteert dan offline afstemming (bijv. DPO, KTO) en tonen we empirisch aan hoe we de kloof tussen online en offline kunnen dichten met Humanline, een eenvoudig maar consistent effectief ontwerp in twee delen. 💡Hoofdvinding: Het toepassen van humanline bovenop offline doelstellingen kan gelijkwaardig presteren aan hun online tegenhangers op zowel instructie opvolging als wiskundig redeneren. Consistente winst over verschillende doelstellingen, modelfamilies en modelgroottes! Meer in threads 🧵