GPT-5 ha ottenuto quasi il 70% in OSWorld: "OSWorld: Benchmarking degli Agenti Multimodali per Compiti Open-Ended in Ambienti Informatici Reali" OSWorld è un ambiente informatico reale scalabile, il primo nel suo genere, per agenti multimodali, che supporta la configurazione dei compiti, la valutazione basata sull'esecuzione e l'apprendimento interattivo attraverso i sistemi operativi. Può fungere da ambiente unificato per valutare compiti informatici open-ended che coinvolgono app arbitrarie (ad esempio, esempi di compiti nella figura sopra).