Argument déroutant du point de vue de la théorie des perspectives (économie, Kahneman & Tversky) selon lequel le GRPO, etc. serait une perte perceptuelle et qu'il serait donc possible de créer une variante entièrement hors ligne sans diminution du taux de victoire… en synchronisant avec la politique de référence à chaque étape.