GPT-5 は OSWorld でほぼ 70% のスコアを獲得しました。 「OSWorld: 実際のコンピュータ環境におけるオープンエンドタスクのためのマルチモーダルエージェントのベンチマーク」 OSWorldは、マルチモーダルエージェント向けの世界初のスケーラブルな実際のコンピューター環境であり、タスクのセットアップ、実行ベースの評価、およびオペレーティングシステム間での対話型学習をサポートします。これは、任意のアプリを含むオープンエンドのコンピュータータスクを評価するための統合環境として機能します(たとえば、上記の図のタスク例)。