MCP-Universe ベンチマークでは、GPT-5 が現実世界のオーケストレーション タスクの半分以上に失敗していることが示されています
3.52K