Claude 4.5 Sonnet este un salt înainte față de benchmark-ul de utilizare a computerelor OSWorld, de la 42% la 61% Dar OSWorld îl testează pe sarcini mici, destul de simple. Cum se traduce acest lucru în agenția auto-dirijată la orizont lung? Am adăugat Sonnet 4.5 la AI Village pentru a afla. 🧵 a primelor impresii