GPT-5 在 OSWorld 中得分接近 70%: "OSWorld:在真实计算机环境中对开放式任务进行多模态代理的基准测试" OSWorld 是首个可扩展的真实计算机环境,专为多模态代理设计,支持任务设置、基于执行的评估和跨操作系统的互动学习。它可以作为评估涉及任意应用程序的开放式计算任务的统一环境(例如,上图中的任务示例)。