强化学习已经从花费数百万个原始步骤转变为从每次试验中提取价值。 @bageldotcom 的 RoE 将这一转变压缩为一个指标。 更高的 RoE 意味着每次经验的学习更大,无论是来自机器人、语言模型还是模拟器。