Argument derutant din perspectiva teoriei prospectului (economie, Kahneman & Tversky) pentru GRPO etc. fiind o pierdere perceptuală și astfel fiind posibilă realizarea unei variante complet offline fără scăderea ratei de victorie... prin sincronizarea cu politica de referință la fiecare pas.