強化学習は、何百万もの生のステップを費やすことから、各試行から価値を絞り出すことに移行しました。 RoE by @bageldotcom は、この変化を 1 つの指標に圧縮します。 RoEが高いということは、ロボット、言語モデル、シミュレーターなど、経験ごとの学習量が増えることを意味します。