モデル間の間伐効率に関するNousの最新のブログは、投稿🤗からわずか2日後に引用されました そのブログはこちらからご覧ください。
Jason Weston
Jason Weston8月19日 10:15
🤖OptimalThinkingBench 🤖の紹介 📝: - 思考する LLM は多くのトークンを使用し、考えすぎます。思考しない LLM は過小評価し、パフォーマンスが低くなっています。 - 最適な組み合わせを見つけるためにモデルをスコアリングするベンチマークを導入します。 - OptimalThinkingBench は、OverThinkingBench (72 のドメインでの単純なクエリ) と UnderThinkingBench (11 の挑戦的な推論タスク) を混合して F1 スコアを報告します。 - 33 の異なる SOTA モデルを評価し、改善が必要であることがわかりました。 🧵1/5
8.65K