GPT-5 uzyskał prawie 70% w OSWorld: "OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments" OSWorld to pierwsze w swoim rodzaju skalowalne, rzeczywiste środowisko komputerowe dla agentów multimodalnych, wspierające konfigurację zadań, ocenę opartą na wykonaniu oraz interaktywne uczenie się w różnych systemach operacyjnych. Może służyć jako zjednoczone środowisko do oceny otwartych zadań komputerowych, które obejmują dowolne aplikacje (np. przykłady zadań w powyższej Fig).