Das verstärkende Lernen hat sich von Millionen roher Schritte hin zu einer Maximierung des Wertes aus jedem Versuch entwickelt. RoE von @bageldotcom komprimiert diesen Wandel in eine Kennzahl. Ein höherer RoE bedeutet mehr Lernen pro Erfahrung, sei es von Robotern, Sprachmodellen oder Simulatoren.