L'ultimo blog di Nous sulla riduzione dell'efficienza tra i modelli è stato citato solo due giorni dopo la sua pubblicazione 🤗 Controlla quel blog qui:
Jason Weston
Jason Weston19 ago, 10:15
🤖Presentiamo OptimalThinkingBench 🤖 📝: - I LLMs che pensano usano molti token e riflettono troppo; i LLMs non pensanti riflettono poco e non performano bene. - Introduciamo un benchmark che valuta i modelli nella ricerca della migliore combinazione. - OptimalThinkingBench riporta il punteggio F1 mescolando OverThinkingBench (query semplici in 72 domini) e UnderThinkingBench (11 compiti di ragionamento impegnativi). - Valutiamo 33 diversi modelli SOTA e troviamo che sono necessari miglioramenti! 🧵1/5
8,65K