De nieuwste blog van Nous over het verbeteren van de efficiëntie tussen modellen werd slechts twee dagen na publicatie geciteerd 🤗 Bekijk die blog hier:
Jason Weston
Jason Weston19 aug, 10:15
🤖Introductie van OptimalThinkingBench 🤖 📝: - Denkende LLM's gebruiken veel tokens en denken te veel na; niet-denkende LLM's denken te weinig na en presteren ondermaats. - We introduceren een benchmark die modellen beoordeelt in de zoektocht naar de beste mix. - OptimalThinkingBench rapporteert de F1-score door OverThinkingBench (eenvoudige vragen in 72 domeinen) en UnderThinkingBench (11 uitdagende redeneertaken) te combineren. - We evalueren 33 verschillende SOTA-modellen en ontdekken dat er verbeteringen nodig zijn! 🧵1/5
8,68K