有趣的事實:在測試集上直接對 RLing 大多數 8b 大小的開放權重模型(如 qwen 3)進行代理基準測試(如 TerminalBench)是行不通的。它們根本無法在合理的取樣預算內猜出正確答案。我迫不及待想看到第一個在這些基準上獲得一些非平凡分數的 8b 模型!