GPT-5 erzielte fast 70 % in OSWorld: "OSWorld: Benchmarking multimodale Agenten für offene Aufgaben in realen Computerumgebungen" OSWorld ist eine neuartige skalierbare, reale Computerumgebung für multimodale Agenten, die die Einrichtung von Aufgaben, die ausführungsgestützte Bewertung und interaktives Lernen über Betriebssysteme hinweg unterstützt. Es kann als eine einheitliche Umgebung zur Bewertung offener Computeraufgaben dienen, die beliebige Apps umfassen (z. B. Aufgabenbeispiele in der obigen Abbildung).