Beregningene som måler modellens MCP-kallbarhet er endelig her GPT5 er langt foran... Alle ferdighetene brukes her
Michael Qizhe Shieh
Michael Qizhe Shieh16 timer siden
Vi introduserer MCPMark, et samarbeid med @EvalSysOrg og @lobehub! Vi laget en utfordrende målestokk for å stressteste MCP-bruk i omfattende sammenhenger. - 127 dataprøver av høy kvalitet laget av eksperter. - GPT-5 tar den nåværende ledelsen og oppnår en Pass@1 på 46,96 %, mens de andre modellene faller i området 10-30 %. - Ulike testtilfeller på Notion, Github, Filesystem, Playwright (nettleser) og Postgres. 9🧵s frem
7,19K