GRPOなどは知覚的損失であり、したがって勝率を低下させることなく完全にオフラインのバリアントを作成することが可能であるという見通し理論(経済学、カーネマン&トベルスキー)の観点からの不可解な議論...各ステップを参照ポリシーと同期することによって。