MCP-Universe-benchmark viser at GPT-5 mislykkes i mer enn halvparten av virkelige orkestreringsoppgaver
3,22K