Claude 4.5 Sonnet rappresenta un passo avanti nel benchmark di utilizzo del computer OSWorld, passando dal 42% al 61% Ma OSWorld lo testa su compiti piccoli e piuttosto semplici. Come si traduce questo in un'agenzia autodiretta a lungo termine? Abbiamo aggiunto Sonnet 4.5 a AI Village per scoprirlo. 🧵 delle prime impressioni