🤖Introductie van OptimalThinkingBench 🤖 📝: - Denkende LLM's gebruiken veel tokens en denken te veel na; niet-denkende LLM's denken te weinig na en presteren ondermaats. - We introduceren een benchmark die modellen beoordeelt in de zoektocht naar de beste mix. - OptimalThinkingBench rapporteert de F1-score door OverThinkingBench (eenvoudige vragen in 72 domeinen) en UnderThinkingBench (11 uitdagende redeneertaken) te combineren. - We evalueren 33 verschillende SOTA-modellen en ontdekken dat er verbeteringen nodig zijn! 🧵1/5
61,14K