Незрозумілий аргумент з точки зору теорії перспектив (економіка, Канеман і Тверскі) для GRPO і т.д. є перцептивним збитком, і, таким чином, можна зробити повністю автономний варіант без зниження вінрейту... шляхом синхронізації з еталонною політикою кожного кроку.