Leuke Feit: RLing de meeste 8b grote open gewicht modellen (zoals qwen 3) direct op de testset voor agentische benchmarks (zoals TerminalBench) werkt niet. Ze kunnen gewoon het juiste antwoord niet raden binnen een redelijk samplingbudget. Ik kan niet wachten om het eerste 8b-model te zien dat een niet-triviaal resultaat behaalt op deze benchmarks!