Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Wreszcie pojawił się wskaźnik mierzący zdolność modelu MCP do wywoływania
GPT5 jest daleko z przodu…
Cała moc została tu wykorzystana.

26 sie, 01:21
Przedstawiamy MCPMark, współpracę z @EvalSysOrg i @lobehub!
Stworzyliśmy wymagający benchmark, aby przetestować zastosowanie MCP w różnych kontekstach.
- 127 wysokiej jakości próbek danych stworzonych przez ekspertów.
- GPT-5 zajmuje obecnie prowadzenie, osiągając Pass@1 na poziomie 46,96%, podczas gdy inne modele mieszczą się w zakresie 10-30%.
- Różnorodne przypadki testowe na Notion, Github, Filesystem, Playwright (przeglądarka) i Postgres.
9🧵s przed nami

8,8K
Najlepsze
Ranking
Ulubione