O aprendizado por reforço deixou de gastar milhões de etapas brutas para extrair valor de cada tentativa. RoE por @bageldotcom comprime essa mudança em uma métrica. Maior RoE significa maior aprendizado por experiência, seja de robôs, modelos de linguagem ou simuladores.