Ist die Online-Ausrichtung der einzige Weg, trotz langsamer und rechenintensiver Natur? Inspiriert von der Prospect-Theorie bieten wir eine menschenzentrierte Erklärung dafür, warum die Online-Ausrichtung (z. B. GRPO) die Offline-Ausrichtung (z. B. DPO, KTO) übertrifft, und zeigen empirisch, wie man die Kluft zwischen Online und Offline mit Humanline, einem einfachen, aber durchweg effektiven Zweiteil-Design, schließen kann. 💡Hauptergebnis: Die Anwendung von Humanline auf Offline-Ziele kann mit ihren Online-Pendants sowohl in der Befolgung von Anweisungen als auch im mathematischen Denken gleichziehen. Konsistente Gewinne über verschiedene Ziele, Modellfamilien und Modellgrößen hinweg! Mehr in den Threads 🧵