Argumen yang membingungkan dari perspektif teori prospek (ekonomi, Kahneman & Tversky) untuk GRPO dll. menjadi kerugian persepsi dan dengan demikian dimungkinkan untuk membuat varian offline sepenuhnya tanpa penurunan winrate... dengan menyinkronkan dengan kebijakan referensi setiap langkah.