Förbryllande argument från perspektivteorin (ekonomi, Kahneman & Tversky) för att GRPO etc. är en perceptuell förlust och därmed är det möjligt att göra en helt offline-variant utan att minska winrate... Genom att synkronisera med referensprincipen i varje steg.