Morsomt faktum: RLing av de fleste 8b-modeller med åpen vekt (som qwen 3) direkte på testsettet for agentiske benchmarks (som TerminalBench) fungerer ikke. De kan bare ikke gjette det riktige svaret innenfor et rimelig utvalgsbudsjett. Jeg gleder meg til å se den første 8b-modellen for å få en ikke-triviell poengsum på disse referansene!