🤖介紹 OptimalThinkingBench 🤖 📝: - 思考型 LLM 使用大量的 tokens 並且過度思考;非思考型 LLM 則思考不足且表現不佳。 - 我們引入了一個基準,評分模型以尋找最佳組合。 - OptimalThinkingBench 報告了 F1 分數,結合了 OverThinkingBench(72 個領域的簡單查詢)和 UnderThinkingBench(11 個具有挑戰性的推理任務)。 - 我們評估了 33 種不同的 SOTA 模型,發現需要改進! 🧵1/5
61.12K