Nous' siste blogg om tynningseffektivitet på tvers av modeller ble sitert bare to dager etter at den ble lagt ut 🤗 Sjekk den bloggen ut her:
Jason Weston
Jason Weston19. aug., 10:15
🤖Vi introduserer OptimalThinkingBench 🤖 📝: - Tenkende LLM-er bruker mange tokens og overtenker; ikke-tenkende LLM-er undertenker og underpresterer. - Vi introduserer en benchmark som scorer modeller i jakten på den beste blandingen. - OptimalThinkingBench rapporterer F1-poengsummen som blander OverThinkingBench (enkle spørringer i 72 domener) og UnderThinkingBench (11 utfordrende resonneringsoppgaver). - Vi evaluerer 33 forskjellige SOTA-modeller og finner forbedringer som trengs! 🧵1/5
8,64K