MCP-Universe 基准显示 GPT-5 在超过一半的实际编排任务中失败。
3.22K