熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
你準備好進行網絡規模的強化學習預訓練了嗎? 🚀
🔥 新論文:RLP:強化學習預訓練
我們顛覆了推理 LLM 的常規做法:不再將強化學習留到後訓練,而是將探索引入預訓練。
核心思想:將思維鏈視為一種行動。
通過它為下一個標記提供的信息增益來獎勵它:
這在普通文本上提供了一個無驗證者的密集獎勵,沒有任務檢查器,沒有標籤,沒有過濾。
這為什麼重要?
* 🧠 模型在預訓練期間在預測之前進行思考,而不僅僅是在對齊之後。
* 📈 每個標記的逐位信用 = 在全網絡規模下的穩定信號。
* 🔁 沒有代理過濾器或“簡單標記”啟發式。訓練整個流。
結果:
在 8 個基準數學+科學套件(AIME’25、MATH‑500、GSM8K、AMC’23、Minerva Math、MMLU、MMLU‑Pro、GPQA):
• Qwen3-1.7B-Base:
RLP 提高了整體平均值 24%!
• Nemotron-Nano-12B-v2-Base:
RLP 提高了整體平均值 43%!...

熱門
排行
收藏