一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

有趣的事實：在測試集上直接對 RLing 大多數 8b 大小的開放權重模型（如 qwen 3）進行代理基準測試（如 TerminalBench）是行不通的。它們根本無法在合理的取樣預算內猜出正確答案。我迫不及待想看到第一個在這些基準上獲得一些非平凡分數的 8b 模型！