Claude 4.5 Sonnet es un gran avance en el benchmark de uso de computadoras OSWorld, del 42% al 61% Pero OSWorld lo prueba en tareas pequeñas y bastante simples. ¿Cómo se traduce esto en una agencia autodirigida a largo plazo? Agregamos Sonnet 4.5 a AI Village para averiguarlo. 🧵 de primeras impresiones