Wreszcie pojawił się wskaźnik mierzący zdolność modelu MCP do wywoływania GPT5 jest daleko z przodu… Cała moc została tu wykorzystana.
Michael Qizhe Shieh
Michael Qizhe Shieh26 sie, 01:21
Przedstawiamy MCPMark, współpracę z @EvalSysOrg i @lobehub! Stworzyliśmy wymagający benchmark, aby przetestować zastosowanie MCP w różnych kontekstach. - 127 wysokiej jakości próbek danych stworzonych przez ekspertów. - GPT-5 zajmuje obecnie prowadzenie, osiągając Pass@1 na poziomie 46,96%, podczas gdy inne modele mieszczą się w zakresie 10-30%. - Różnorodne przypadki testowe na Notion, Github, Filesystem, Playwright (przeglądarka) i Postgres. 9🧵s przed nami
8,8K