Esittelyssä MCPMark, yhteistyö @EvalSysOrg ja @lobehub! Loimme haastavan vertailuarvon MCP:n käytön stressitestaukseen kattavissa yhteyksissä. - 127 asiantuntijoiden luomaa korkealaatuista datanäytettä. - GPT-5 ottaa nykyisen johdon ja saavuttaa 46,96 %:n Pass@1, kun taas muut mallit ovat 10-30 %. - Erilaisia testitapauksia Notionista, Githubista, Filesystemistä, Playwrightista (selain) ja Postgresista. 9🧵s eteenpäin
41,09K