Claude 4.5 Sonnetは、OSWorldコンピュータ使用ベンチマークで42%から61%に飛躍的に進歩しました しかし、OSWorld は、小さくてかなり単純なタスクでテストします。これは、長期にわたる自主的な主体性にどのように変換されるのでしょうか? それを調べるために、Sonnet 4.5 を AI Village に追加しました。🧵 第一印象の