Forvirrende argument fra perspektivet til prospektteori (økonomi, Kahneman & Tversky) for at GRPO etc. er et perseptuelt tap og dermed er det mulig å lage en fullstendig offline variant uten reduksjon i winrate ... ved å synkronisere med referansepolicy hvert trinn.