O benchmark MCP-Universe mostra que o GPT-5 falha em mais da metade das tarefas de orquestração do mundo real
3,22K