Интересный факт: RLing большинства моделей открытого веса размером 8b (таких как qwen 3) напрямую на тестовом наборе для агентных бенчмарков (таких как TerminalBench) не работает. Они просто не могут угадать правильный ответ в разумных пределах бюджета выборки. Я не могу дождаться, когда первая модель 8b получит какой-то нетривиальный балл на этих бенчмарках!