GPT-5 mencetak hampir 70% di OSWorld: "OSWorld: Benchmarking Agen Multimodal untuk Tugas Terbuka di Lingkungan Komputer Nyata" OSWorld adalah lingkungan komputer nyata yang dapat diskalakan pertama dari jenisnya untuk agen multimoda, mendukung penyiapan tugas, evaluasi berbasis eksekusi, dan pembelajaran interaktif di seluruh sistem operasi. Ini dapat berfungsi sebagai lingkungan terpadu untuk mengevaluasi tugas komputer terbuka yang melibatkan aplikasi arbitrer (misalnya, contoh tugas pada Gambar di atas).