🤖Представляємо OptimalThinkingBench 🤖 📝: - Мислячі LLM використовують багато токенів і надмірно обмірковують; немислячі ЛМ недомислюють і недопрацьовують. - Ми представляємо еталон, який оцінює моделі в пошуках найкращого міксу. - OptimalThinkingBench повідомляє про оцінку Формули-1, поєднуючи OverThinkingBench (прості запити в 72 доменах) і UnderThinkingBench (11 складних завдань на міркування). - Ми оцінюємо 33 різні моделі SOTA і вважаємо, що потрібні вдосконалення! 🧵1/5
61,12K