O GPT-5 obteve quase 70% no OSWorld: "OSWorld: Benchmarking de Agentes Multimodais para Tarefas Abertas em Ambientes Computacionais Reais" O OSWorld é um ambiente computacional real escalável, pioneiro no seu tipo, para agentes multimodais, suportando configuração de tarefas, avaliação baseada em execução e aprendizagem interativa através de sistemas operativos. Pode servir como um ambiente unificado para avaliar tarefas computacionais abertas que envolvem aplicativos arbitrários (por exemplo, exemplos de tarefas na figura acima).