Curiosidade: RLing a maioria dos modelos de peso aberto de tamanho 8b (como qwen 3) diretamente no conjunto de teste para benchmarks agenciais (como TerminalBench) não funciona. Eles simplesmente não conseguem adivinhar a resposta certa dentro de um orçamento de amostragem razoável. Mal posso esperar para ver o primeiro modelo 8b para obter uma pontuação não trivial nesses benchmarks!