一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

有趣的事实：在代理基准（如 TerminalBench）上，直接在测试集上对大多数 8b 大小的开放权重模型（如 qwen 3）进行 RLing 是行不通的。它们根本无法在合理的采样预算内猜出正确答案。我迫不及待想看到第一个在这些基准上获得一些非平凡分数的 8b 模型！