Verwirrender Argument aus der Perspektive der Prospect-Theorie (Ökonomie, Kahneman & Tversky), dass GRPO usw. einen perceptuellen Verlust darstellt und es somit möglich ist, eine vollständig offline Variante zu erstellen, ohne dass die Gewinnrate sinkt… indem man bei jedem Schritt mit der Referenzpolitik synchronisiert.