Presentiamo MCPMark, una collaborazione con @EvalSysOrg e @lobehub! Abbiamo creato un benchmark impegnativo per testare l'uso di MCP in contesti complessi. - 127 campioni di dati di alta qualità creati da esperti. - GPT-5 attualmente in testa con un Pass@1 del 46,96%, mentre gli altri modelli si attestano tra il 10% e il 30%. - Casi di test diversificati su Notion, Github, Filesystem, Playwright (browser) e Postgres. 9🧵s avanti
35,9K