انتقل التعلم المعزز من إنفاق ملايين الخطوات الأولية إلى الضغط على القيمة من كل تجربة. يضغط RoE بواسطة @bageldotcom هذا التحول إلى مقياس واحد. يعني معدل الاقتطاع العالي تعليما أكبر لكل تجربة ، سواء من الروبوتات أو نماذج اللغة أو أجهزة المحاكاة.