🤖Giới thiệu OptimalThinkingBench 🤖 📝: - Các LLM suy nghĩ sử dụng rất nhiều token & suy nghĩ quá mức; các LLM không suy nghĩ lại suy nghĩ ít & hoạt động kém. - Chúng tôi giới thiệu một tiêu chuẩn đánh giá mà chấm điểm các mô hình trong cuộc tìm kiếm để tìm ra sự kết hợp tốt nhất. - OptimalThinkingBench báo cáo điểm F1 kết hợp OverThinkingBench (các truy vấn đơn giản trong 72 lĩnh vực) & UnderThinkingBench (11 nhiệm vụ lý luận thách thức). - Chúng tôi đánh giá 33 mô hình SOTA khác nhau & nhận thấy cần có sự cải thiện! 🧵1/5
61,14K