GPT-5 obtuvo casi un 70% en OSWorld: "OSWorld: Evaluación de Agentes Multimodales para Tareas Abiertas en Entornos Informáticos Reales" OSWorld es un entorno informático real escalable y pionero para agentes multimodales, que soporta la configuración de tareas, la evaluación basada en la ejecución y el aprendizaje interactivo a través de sistemas operativos. Puede servir como un entorno unificado para evaluar tareas informáticas abiertas que involucran aplicaciones arbitrarias (por ejemplo, ejemplos de tareas en la figura anterior).