RLを使用したWebスケールの事前トレーニングの準備はできていますか?🚀 🔥 新論文:RLP:強化学習事前トレーニング LLMの推論の通常のレシピをひっくり返して、RLをトレーニング後に保存する代わりに、事前トレーニングに探索を取り入れます。 核となるアイデア: 思考の連鎖を行動として扱う。 次のトークンに提供する情報獲得によって報酬を与えます。 これにより、タスクチェッカー、ラベル、フィルタリングなしで、通常のテキストに対して検証者のない高密度の報酬が得られます。 なぜこれが重要なのですか? * 🧠 モデルは、アライメント後だけでなく、事前トレーニング中に予測する前に考えます。 * 📈 すべてのトークンでのポジションごとのクレジット = フル Web スケールでの安定したシグナル。 * 🔁 プロキシフィルターや「イージートークン」ヒューリスティックはありません。ストリーム全体でトレーニングします。 業績: 8ベンチマークの数学+科学スイート(AIME'25、MATH-500、GSM8K、AMC'23、Minerva Math、MMLU、MMLU-Pro、GPQA)では、次のようになります。 - Qwen3-1.7B-ベース: RLPは全体の平均を24%向上させます! • Nemotron-Nano-12B-v2-ベース: RLPは全体の平均を43%向上させます!...