Einführung von MCPMark, einer Zusammenarbeit mit @EvalSysOrg und @lobehub! Wir haben einen herausfordernden Benchmark erstellt, um die Nutzung von MCP in umfassenden Kontexten zu testen. - 127 hochwertige Datenproben, die von Experten erstellt wurden. - GPT-5 führt derzeit mit einer Pass@1 von 46,96%, während die anderen Modelle im Bereich von 10-30% liegen. - Vielfältige Testfälle auf Notion, Github, Filesystem, Playwright (Browser) und Postgres. 9🧵s voraus
35,91K