Argumento desconcertante desde la perspectiva de la teoría prospectiva (economía, Kahneman y Tversky) para que GRPO, etc. sea una pérdida perceptual y, por lo tanto, sea posible hacer una variante completamente fuera de línea sin disminución en la tasa de victorias... sincronizando con la política de referencia cada paso.