¡Presentamos MCPMark, una colaboración con @EvalSysOrg y @lobehub! Creamos un punto de referencia desafiante para probar el uso de MCP en contextos integrales. - 127 muestras de datos de alta calidad creadas por expertos. - GPT-5 toma la delantera actual y logra una Pass@1 del 46,96%, mientras que los otros modelos se sitúan en el rango del 10-30%. - Diversos casos de prueba en Notion, Github, Filesystem, Playwright (navegador) y Postgres. 🧵9 s por delante
35.91K