O GPT-5 marcou quase 70% no OSWorld: "OSWorld: Benchmarking de agentes multimodais para tarefas abertas em ambientes de computadores reais" O OSWorld é um ambiente de computador real escalável e inédito para agentes multimodais, suportando a configuração de tarefas, avaliação baseada em execução e aprendizado interativo em sistemas operacionais. Ele pode servir como um ambiente unificado para avaliar tarefas de computador abertas que envolvem aplicativos arbitrários (por exemplo, exemplos de tarefas na Fig acima).