Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Метрики, які вимірюють виклик MCP моделі, нарешті тут
GPT5 далеко попереду...
Тут використовуються всі навички

17 годин тому
Представляємо MCPMark, співпрацю з @EvalSysOrg та @lobehub!
Ми створили складний бенчмарк для стрес-тестування використання MCP у всеосяжних контекстах.
- 127 якісних зразків даних, створених експертами.
- GPT-5 займає поточне лідерство і досягає Pass@1 46,96%, тоді як інші моделі потрапляють у діапазон 10-30%.
- Різноманітні тест-кейси на Notion, Github, Filesystem, Playwright (браузер) та Postgres.
🧵Попереду 9 с

7,2K
Найкращі
Рейтинг
Вибране