Запутанный аргумент с точки зрения теории перспектив (экономика, Канеман и Тверски) о том, что GRPO и т.д. является перцептивной потерей, и, следовательно, возможно создать полностью оффлайн-версию без снижения коэффициента побед… синхронизируя с эталонной политикой на каждом шаге.