Rolig fakta: Det fungerar inte att RLa de flesta modeller med öppen vikt i 8b-storlek (som qwen 3) direkt på testsetet för agentiska riktmärken (som TerminalBench). De kan helt enkelt inte gissa rätt svar inom en rimlig provtagningsbudget. Jag kan inte vänta med att se den första 8b-modellen för att få några icke-triviala poäng på dessa riktmärken!