Un argumento desconcertante desde la perspectiva de la teoría de las perspectivas (economía, Kahneman y Tversky) para que GRPO, etc. sea una pérdida perceptual y, por lo tanto, sea posible crear una variante completamente offline sin disminución en la tasa de victorias... sincronizando con la política de referencia en cada paso.