MCP-Universe 基準顯示 GPT-5 在超過一半的實際編排任務中失敗。
3.22K