Die Metrik zur Messung der Anrufkapazität des Modells MCP ist endlich da GPT5 ist weit voraus... Die gesamte Kraft wird hier eingesetzt
Michael Qizhe Shieh
Michael Qizhe ShiehVor 19 Stunden
Einführung von MCPMark, einer Zusammenarbeit mit @EvalSysOrg und @lobehub! Wir haben einen herausfordernden Benchmark erstellt, um die Nutzung von MCP in umfassenden Kontexten zu testen. - 127 hochwertige Datenproben, die von Experten erstellt wurden. - GPT-5 führt derzeit mit einer Pass@1 von 46,96%, während die anderen Modelle im Bereich von 10-30% liegen. - Vielfältige Testfälle auf Notion, Github, Filesystem, Playwright (Browser) und Postgres. 9🧵s voraus
8,03K