🤖Представляем OptimalThinkingBench 🤖 📝: - Модели LLM, которые много думают, используют много токенов и переосмысляют; модели LLM, которые не думают, недоразмышляют и показывают низкие результаты. - Мы представляем бенчмарк, который оценивает модели в поисках лучшего сочетания. - OptimalThinkingBench сообщает F1-оценку, комбинируя OverThinkingBench (простые запросы в 72 областях) и UnderThinkingBench (11 сложных задач на рассуждение). - Мы оцениваем 33 различных SOTA модели и находим, что необходимы улучшения! 🧵1/5
61,14K