Introductie van MCPMark, een samenwerking met @EvalSysOrg en @lobehub! We hebben een uitdagende benchmark gecreëerd om het gebruik van MCP in uitgebreide contexten te testen. - 127 hoogwaardige gegevensmonsters gemaakt door experts. - GPT-5 neemt momenteel de leiding en behaalt een Pass@1 van 46,96%, terwijl de andere modellen zich in het bereik van 10-30% bevinden. - Diverse testgevallen op Notion, Github, Filesystem, Playwright (browser) en Postgres. 9🧵s voor!
41,09K