MCP-Universe benchmark visar att GPT-5 misslyckas med mer än hälften av orkestreringsuppgifterna i den verkliga världen
3,92K