Pembelajaran penguatan telah beralih dari menghabiskan jutaan langkah mentah menjadi memeras nilai dari setiap uji coba. RoE dengan @bageldotcom mengompresi pergeseran ini menjadi satu metrik. RoE yang lebih tinggi berarti pembelajaran per pengalaman yang lebih besar, baik dari robot, model bahasa, atau simulator.