🤖Představujeme OptimalThinkingBench 🤖 📝: - Myslící LLM využívají hodně tokenů a přemýšlení; nemyslící LLM nedostatečně přemýšlejí a nedostatečně vystupují. - Zavádíme benchmark, který hodnotí modely při hledání nejlepšího mixu. - OptimalThinkingBench hlásí F1 skóre kombinující OverThinkingBench (jednoduché dotazy v 72 doménách) a UnderThinkingBench (11 náročných úloh na uvažování). - Hodnotíme 33 různých modelů SOTA a hledáme potřebná vylepšení! 🧵1/5
61,11K