你準備好進行網絡規模的強化學習預訓練了嗎? 🚀 🔥 新論文:RLP:強化學習預訓練 我們顛覆了推理 LLM 的常規做法:不再將強化學習留到後訓練,而是將探索引入預訓練。 核心思想:將思維鏈視為一種行動。 通過它為下一個標記提供的信息增益來獎勵它: 這在普通文本上提供了一個無驗證者的密集獎勵,沒有任務檢查器,沒有標籤,沒有過濾。 這為什麼重要? * 🧠 模型在預訓練期間在預測之前進行思考,而不僅僅是在對齊之後。 * 📈 每個標記的逐位信用 = 在全網絡規模下的穩定信號。 * 🔁 沒有代理過濾器或“簡單標記”啟發式。訓練整個流。 結果: 在 8 個基準數學+科學套件(AIME’25、MATH‑500、GSM8K、AMC’23、Minerva Math、MMLU、MMLU‑Pro、GPQA): • Qwen3-1.7B-Base: RLP 提高了整體平均值 24%! • Nemotron-Nano-12B-v2-Base: RLP 提高了整體平均值 43%!...