Ciekawostka: RLing większości modeli o rozmiarze 8b (takich jak qwen 3) bezpośrednio na zbiorze testowym dla benchmarków agentowych (takich jak TerminalBench) nie działa. Po prostu nie potrafią zgadnąć właściwej odpowiedzi w rozsądnym budżecie próbkowania. Nie mogę się doczekać, aż pierwszy model 8b uzyska jakiś nietrywialny wynik w tych benchmarkach!