Lập luận khó hiểu từ góc độ lý thuyết triển vọng (kinh tế học, Kahneman & Tversky) cho việc GRPO v.v. là một tổn thất cảm nhận và do đó có thể tạo ra một biến thể hoàn toàn ngoại tuyến mà không giảm tỷ lệ thắng... bằng cách đồng bộ hóa với chính sách tham chiếu mỗi bước.