GPT-5 fick nästan 70 % i OSWorld: "OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments" (OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments) OSWorld är den första skalbara, verkliga datormiljön i sitt slag för multimodala agenter, med stöd för uppgiftsinställning, exekveringsbaserad utvärdering och interaktiv inlärning mellan operativsystem. Det kan fungera som en enhetlig miljö för att utvärdera öppna datoruppgifter som involverar godtyckliga appar (t.ex. uppgiftsexempel i ovanstående Fig).