in realtà è un benchmark di allucinazione piuttosto intelligente e ad alta densità di dati che ~corrisponde alla mia intuizione sulle capacità relative
OpenRouter
OpenRouter15 ago, 00:29
Dopo una settimana, GPT-5 ha raggiunto il primo posto nelle nostre classifiche di modelli proprietari per precisione nella chiamata degli strumenti🥇 Al secondo posto c'è Claude 4.1 Opus, con il 99,5% Dettagli 👇
24K