L'apprendimento per rinforzo è passato dal spendere milioni di passi grezzi a estrarre valore da ogni prova. Il RoE di @bageldotcom comprime questo cambiamento in un'unica metrica. Un RoE più alto significa un maggiore apprendimento per esperienza, sia da robot, modelli linguistici o simulatori.