Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
L'ultimo blog di Nous sulla riduzione dell'efficienza tra i modelli è stato citato solo due giorni dopo la sua pubblicazione 🤗
Controlla quel blog qui:


19 ago, 10:15
🤖Presentiamo OptimalThinkingBench 🤖
📝:
- I LLMs che pensano usano molti token e riflettono troppo; i LLMs non pensanti riflettono poco e non performano bene.
- Introduciamo un benchmark che valuta i modelli nella ricerca della migliore combinazione.
- OptimalThinkingBench riporta il punteggio F1 mescolando OverThinkingBench (query semplici in 72 domini) e UnderThinkingBench (11 compiti di ragionamento impegnativi).
- Valutiamo 33 diversi modelli SOTA e troviamo che sono necessari miglioramenti!
🧵1/5

8,65K
Principali
Ranking
Preferiti