トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
RLを使用したWebスケールの事前トレーニングの準備はできていますか?🚀
🔥 新論文:RLP:強化学習事前トレーニング
LLMの推論の通常のレシピをひっくり返して、RLをトレーニング後に保存する代わりに、事前トレーニングに探索を取り入れます。
核となるアイデア: 思考の連鎖を行動として扱う。
次のトークンに提供する情報獲得によって報酬を与えます。
これにより、タスクチェッカー、ラベル、フィルタリングなしで、通常のテキストに対して検証者のない高密度の報酬が得られます。
なぜこれが重要なのですか?
* 🧠 モデルは、アライメント後だけでなく、事前トレーニング中に予測する前に考えます。
* 📈 すべてのトークンでのポジションごとのクレジット = フル Web スケールでの安定したシグナル。
* 🔁 プロキシフィルターや「イージートークン」ヒューリスティックはありません。ストリーム全体でトレーニングします。
業績:
8ベンチマークの数学+科学スイート(AIME'25、MATH-500、GSM8K、AMC'23、Minerva Math、MMLU、MMLU-Pro、GPQA)では、次のようになります。
- Qwen3-1.7B-ベース:
RLPは全体の平均を24%向上させます!
• Nemotron-Nano-12B-v2-ベース:
RLPは全体の平均を43%向上させます!...

トップ
ランキング
お気に入り