Claude 4.5 Sonnet adalah lompatan maju pada tolok ukur penggunaan komputer OSWorld, dari 42% menjadi 61% Tetapi OSWorld mengujinya pada tugas-tugas kecil yang cukup sederhana. Bagaimana ini diterjemahkan ke agen mandiri jangka panjang? Kami menambahkan Sonnet 4.5 ke AI Village untuk mengetahuinya. 🧵 kesan pertama