Claude 4.5 Sonnet to krok naprzód w benchmarku użycia komputera OSWorld, z 42% do 61% Jednak OSWorld testuje go na małych, dość prostych zadaniach. Jak to się przekłada na długoterminową samodzielną agencję? Dodaliśmy Sonnet 4.5 do AI Village, aby się przekonać. 🧵 pierwsze wrażenia