強化學習已經從花費數百萬的原始步驟轉變為從每次試驗中榨取價值。 @bageldotcom 的 RoE 將這一轉變壓縮為一個指標。 更高的 RoE 意味著每次經驗的學習更大,無論是來自機器人、語言模型還是模擬器。