從前景理論(經濟學,Kahneman & Tversky)的角度來看,對於GRPO等作為感知損失的令人困惑的論點,因此可以製作一個完全離線的變體,而不會降低勝率……通過每一步與參考策略同步。