Обучение с подкреплением перешло от траты миллионов сырых шагов к извлечению ценности из каждого испытания. RoE от @bageldotcom сжимает этот сдвиг в одну метрику. Более высокий RoE означает большее обучение на каждом опыте, будь то роботы, языковые модели или симуляторы.