El aprendizaje por refuerzo ha pasado de gastar millones de pasos sin procesar a exprimir el valor de cada prueba. El RoE por @bageldotcom comprime este cambio en una métrica. Un mayor ROE significa un mayor aprendizaje por experiencia, ya sea de robots, modelos de lenguaje o simuladores.