Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Vi introduserer MCPMark, et samarbeid med @EvalSysOrg og @lobehub!
Vi laget en utfordrende målestokk for å stressteste MCP-bruk i omfattende sammenhenger.
- 127 dataprøver av høy kvalitet laget av eksperter.
- GPT-5 tar den nåværende ledelsen og oppnår en Pass@1 på 46,96 %, mens de andre modellene faller i området 10-30 %.
- Ulike testtilfeller på Notion, Github, Filesystem, Playwright (nettleser) og Postgres.
9🧵s frem

35,9K
Topp
Rangering
Favoritter