🤖Vă prezentăm OptimalThinkingBench 🤖 📝: - LLM-urile gânditoare folosesc o mulțime de jetoane și gândesc prea mult; LLM-urile negânditoare nu gândesc și nu au performanțe. - Introducem un benchmark care punctează modelele în încercarea de a găsi cel mai bun amestec. - OptimalThinkingBench raportează scorul F1 amestecând OverThinkingBench (interogări simple în 72 de domenii) și UnderThinkingBench (11 sarcini de raționament provocatoare). - Evaluăm 33 de modele SOTA diferite și găsim că sunt necesare îmbunătățiri! 🧵1/5
61,16K