一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

你準備好進行網絡規模的強化學習預訓練了嗎？ 🚀 🔥 新論文：RLP：強化學習預訓練我們顛覆了推理 LLM 的常規做法：不再將強化學習留到後訓練，而是將探索引入預訓練。核心思想：將思維鏈視為一種行動。通過它為下一個標記提供的信息增益來獎勵它：這在普通文本上提供了一個無驗證者的密集獎勵，沒有任務檢查器，沒有標籤，沒有過濾。這為什麼重要？ * 🧠 模型在預訓練期間在預測之前進行思考，而不僅僅是在對齊之後。 * 📈 每個標記的逐位信用 = 在全網絡規模下的穩定信號。 * 🔁 沒有代理過濾器或“簡單標記”啟發式。訓練整個流。結果：在 8 個基準數學+科學套件（AIME’25、MATH‑500、GSM8K、AMC’23、Minerva Math、MMLU、MMLU‑Pro、GPQA）： • Qwen3-1.7B-Base： RLP 提高了整體平均值 24%！ • Nemotron-Nano-12B-v2-Base： RLP 提高了整體平均值 43%！...