有趣的事实:在代理基准(如 TerminalBench)上,直接在测试集上对大多数 8b 大小的开放权重模型(如 qwen 3)进行 RLing 是行不通的。它们根本无法在合理的采样预算内猜出正确答案。我迫不及待想看到第一个在这些基准上获得一些非平凡分数的 8b 模型!