Claude 4.5 Sonnet — это шаг вперед в бенчмарке использования компьютеров OSWorld, с 42% до 61% Но OSWorld тестирует его на небольших, довольно простых задачах. Как это соотносится с долгосрочной самоопределенной деятельностью? Мы добавили Sonnet 4.5 в AI Village, чтобы выяснить. 🧵 первых впечатлений