GPT-5 obtuvo casi un 70% en OSWorld: "OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments" OSWorld es el primer entorno informático real escalable de su tipo para agentes multimodales, que admite la configuración de tareas, la evaluación basada en la ejecución y el aprendizaje interactivo en todos los sistemas operativos. Puede servir como un entorno unificado para evaluar tareas informáticas abiertas que involucran aplicaciones arbitrarias (por ejemplo, ejemplos de tareas en la Fig. anterior).