Цікавий факт: RLing більшості моделей з відкритою вагою розміром 8b (наприклад, qwen 3) безпосередньо на тестовому наборі для агентичних тестів (наприклад, TerminalBench) не працює. Вони просто не можуть вгадати правильну відповідь в рамках розумного бюджету вибірки. Я не можу дочекатися, щоб побачити першу модель 8b, яка отримає якийсь нетривіальний бал за цими бенчмарками!