🤖Présentation d'OptimalThinkingBench 🤖 📝: - Les LLMs pensants utilisent beaucoup de tokens et réfléchissent trop ; les LLMs non-pensants réfléchissent trop peu et sous-performent. - Nous introduisons un benchmark qui évalue les modèles dans la quête de trouver le meilleur mélange. - OptimalThinkingBench rapporte le score F1 en mélangeant OverThinkingBench (requêtes simples dans 72 domaines) et UnderThinkingBench (11 tâches de raisonnement difficiles). - Nous évaluons 33 modèles SOTA différents et constatons que des améliorations sont nécessaires ! 🧵1/5
61,13K