Hauska fakta: Useimpien 8b-kokoisten avoimen painon mallien (kuten qwen 3) RLaaminen suoraan agenttisten vertailuarvojen testisarjaan (kuten TerminalBench) ei toimi. He eivät vain osaa arvata oikeaa vastausta kohtuullisen otantabudjetin puitteissa. En malta odottaa, että näen ensimmäisen 8b-mallin saavani ei-triviaalin pistemäärän näistä vertailuarvoista!