Vi introduserer MCPMark, et samarbeid med @EvalSysOrg og @lobehub! Vi laget en utfordrende målestokk for å stressteste MCP-bruk i omfattende sammenhenger. - 127 dataprøver av høy kvalitet laget av eksperter. - GPT-5 tar den nåværende ledelsen og oppnår en Pass@1 på 46,96 %, mens de andre modellene faller i området 10-30 %. - Ulike testtilfeller på Notion, Github, Filesystem, Playwright (nettleser) og Postgres. 9🧵s frem
35,9K