Ein gutes Beispiel dafür, warum ich und viele RL-Whisper sagen, dass man heute größere Basis-Modelle für RL verwenden muss. Besseres Pretraining wird dazu führen, dass RL auf kleineren Basis-Modellen schwierigere und interessantere Aufgaben lösen kann. Das ist der Weg.