Metrik yang mengukur kemampuan panggilan MCP model akhirnya ada di sini GPT5 jauh di depan... Semua keterampilan digunakan di sini
Michael Qizhe Shieh
Michael Qizhe Shieh17 jam lalu
Memperkenalkan MCPMark, kolaborasi dengan @EvalSysOrg dan @lobehub! Kami membuat tolok ukur yang menantang untuk menguji stres penggunaan MCP dalam konteks yang komprehensif. - 127 sampel data berkualitas tinggi yang dibuat oleh para ahli. - GPT-5 memimpin saat ini dan mencapai Pass@1 46,96% sedangkan model lainnya berada di kisaran 10-30%. - Beragam kasus pengujian di Notion, Github, Filesystem, Playwright (browser), dan Postgres. 9🧵detik ke depan
7,19K