Fapt amuzant: RLing majoritatea modelelor de greutate deschisă de dimensiunea 8b (cum ar fi qwen 3) direct pe setul de testare pentru benchmark-uri agentice (cum ar fi TerminalBench) nu funcționează. Pur și simplu nu pot ghici răspunsul corect într-un buget rezonabil de eșantionare. Abia aștept să văd primul model 8b care să obțină un scor non-trivial la aceste benchmark-uri!