介紹MCPMark,這是與@EvalSysOrg和@lobehub的合作! 我們創建了一個具有挑戰性的基準,以在全面的上下文中對MCP的使用進行壓力測試。 - 由專家創建的127個高質量數據樣本。 - GPT-5目前領先,Pass@1達到了46.96%,而其他模型的範圍在10-30%之間。 - 在Notion、Github、文件系統、Playwright(瀏覽器)和Postgres上進行了多樣化的測試案例。 9🧵s在前
35.9K