GPT-5 a obținut aproape 70% în OSWorld: "OSWorld: Benchmarking agenți multimodali pentru sarcini deschise în medii reale de calcul" OSWorld este primul mediu de calcul scalabil, real pentru agenți multimodali, care acceptă configurarea sarcinilor, evaluarea bazată pe execuție și învățarea interactivă între sistemele de operare. Poate servi ca un mediu unificat pentru evaluarea sarcinilor computerizate deschise care implică aplicații arbitrare (de exemplu, exemple de sarcini din Fig.