L'apprentissage par renforcement est passé de millions d'étapes brutes à l'extraction de valeur de chaque essai. Le RoE par @bageldotcom compresse ce changement en une seule métrique. Un RoE plus élevé signifie un apprentissage plus important par expérience, que ce soit à partir de robots, de modèles linguistiques ou de simulateurs.