Học tăng cường đã chuyển từ việc tiêu tốn hàng triệu bước thô sang việc khai thác giá trị từ mỗi thử nghiệm. RoE của @bageldotcom nén sự chuyển mình này thành một chỉ số. RoE cao hơn có nghĩa là học hỏi nhiều hơn từ mỗi trải nghiệm, cho dù từ robot, mô hình ngôn ngữ hay mô phỏng.