Sự thật thú vị: Việc RLing các mô hình trọng lượng mở kích thước 8b (như qwen 3) trực tiếp trên tập kiểm tra cho các tiêu chuẩn agentic (như TerminalBench) không hiệu quả. Chúng chỉ không thể đoán đúng câu trả lời trong một ngân sách mẫu hợp lý. Tôi không thể chờ đợi để thấy mô hình 8b đầu tiên đạt được một điểm số không tầm thường trên các tiêu chuẩn này!