🤖Esittelyssä OptimalThinkingBench 🤖 📝: - Ajattelevat LLM:t käyttävät paljon tokeneita ja ajattelevat liikaa; ei-ajattelevat LLM:t aliajattelevat ja alisuoriutuvat. - Otamme käyttöön vertailuarvon, joka pisteyttää malleja parhaan yhdistelmän löytämiseksi. - OptimalThinkingBench raportoi F1-pisteet sekoittamalla OverThinkingBench (yksinkertaiset kyselyt 72 alueella) ja UnderThinkingBench (11 haastavaa päättelytehtävää). - Arvioimme 33 erilaista SOTA-mallia ja huomaamme, että parannuksia tarvitaan! 🧵1/5
61,15K