Cửa hàng DApp | Trung tâm Web3 với các sự kiện và trò chơi

Chủ đề thịnh hành

Sự thật thú vị: Việc RLing các mô hình trọng lượng mở kích thước 8b (như qwen 3) trực tiếp trên tập kiểm tra cho các tiêu chuẩn agentic (như TerminalBench) không hiệu quả. Chúng chỉ không thể đoán đúng câu trả lời trong một ngân sách mẫu hợp lý. Tôi không thể chờ đợi để thấy mô hình 8b đầu tiên đạt được một điểm số không tầm thường trên các tiêu chuẩn này!

Hàng đầu

Thứ hạng

Yêu thích