Las métricas que miden la capacidad de llamada de MCP del modelo finalmente están aquí GPT5 está muy por delante... Aquí se utilizan todas las habilidades
Michael Qizhe Shieh
Michael Qizhe Shiehhace 17 horas
¡Presentamos MCPMark, una colaboración con @EvalSysOrg y @lobehub! Creamos un punto de referencia desafiante para probar el uso de MCP en contextos integrales. - 127 muestras de datos de alta calidad creadas por expertos. - GPT-5 toma la delantera actual y logra una Pass@1 del 46,96%, mientras que los otros modelos se sitúan en el rango del 10-30%. - Diversos casos de prueba en Notion, Github, Filesystem, Playwright (navegador) y Postgres. 🧵9 s por delante
7.2K