Metriky, které měří volatelnost MCP modelu, jsou konečně tady GPT5 je daleko napřed... Jsou zde použity všechny dovednosti
Michael Qizhe Shieh
Michael Qizhe ShiehPřed 14 h
Představujeme MCPMark, spolupráci s @EvalSysOrg a @lobehub! Vytvořili jsme náročný benchmark pro zátěžové testování používání MCP v komplexním kontextu. - 127 kvalitních datových vzorků vytvořených odborníky. - GPT-5 se ujímá aktuálního vedení a dosahuje Pass@1 46,96 %, zatímco ostatní modely spadají do rozmezí 10-30 %. - Různé testovací případy na Notion, Github, Filesystem, Playwright (prohlížeč) a Postgres. 🧵9 s před
6,71K