从前景理论(经济学,卡尼曼和特沃斯基)的角度来看,GRPO等的令人困惑的论点是,它被视为一种感知损失,因此可以制作一个完全离线的变体,而不会降低胜率……通过在每一步与参考策略同步。