Le benchmark MCP-Universe montre que GPT-5 échoue à plus de la moitié des tâches d'orchestration dans le monde réel.
3,52K