Метрики, які вимірюють виклик MCP моделі, нарешті тут GPT5 далеко попереду... Тут використовуються всі навички
Michael Qizhe Shieh
Michael Qizhe Shieh17 годин тому
Представляємо MCPMark, співпрацю з @EvalSysOrg та @lobehub! Ми створили складний бенчмарк для стрес-тестування використання MCP у всеосяжних контекстах. - 127 якісних зразків даних, створених експертами. - GPT-5 займає поточне лідерство і досягає Pass@1 46,96%, тоді як інші моделі потрапляють у діапазон 10-30%. - Різноманітні тест-кейси на Notion, Github, Filesystem, Playwright (браузер) та Postgres. 🧵Попереду 9 с
7,2K