面白い事実:エージェントベンチマーク(TerminalBenchなど)のテストセットでほとんどの8bサイズのオープンウェイトモデル(qwen 3など)を直接RLingすることは機能しません。彼らは、妥当なサンプリング予算内で正しい答えを推測することができません。これらのベンチマークで重要なスコアを獲得できる最初の 8b モデルを見るのが待ちきれません。