Argomento sconcertante dalla prospettiva della teoria dei prospetti (economia, Kahneman & Tversky) per GRPO ecc. come perdita percettiva e quindi è possibile creare una variante completamente offline senza diminuzione del tasso di vittoria... sincronizzando con la politica di riferimento ad ogni passo.