分散型アプリ（DApp）ストア｜イベントおよびゲーム用 Web3 ハブ

トレンドトピック

RLを使用したWebスケールの事前トレーニングの準備はできていますか?🚀 🔥 新論文:RLP:強化学習事前トレーニング LLMの推論の通常のレシピをひっくり返して、RLをトレーニング後に保存する代わりに、事前トレーニングに探索を取り入れます。核となるアイデア: 思考の連鎖を行動として扱う。次のトークンに提供する情報獲得によって報酬を与えます。これにより、タスクチェッカー、ラベル、フィルタリングなしで、通常のテキストに対して検証者のない高密度の報酬が得られます。なぜこれが重要なのですか? * 🧠 モデルは、アライメント後だけでなく、事前トレーニング中に予測する前に考えます。 * 📈 すべてのトークンでのポジションごとのクレジット = フル Web スケールでの安定したシグナル。 * 🔁 プロキシフィルターや「イージートークン」ヒューリスティックはありません。ストリーム全体でトレーニングします。業績： 8ベンチマークの数学+科学スイート(AIME'25、MATH-500、GSM8K、AMC'23、Minerva Math、MMLU、MMLU-Pro、GPQA)では、次のようになります。 - Qwen3-1.7B-ベース: RLPは全体の平均を24%向上させます! • Nemotron-Nano-12B-v2-ベース: RLPは全体の平均を43%向上させます!...

トップ

ランキング

お気に入り