トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚨 NuRL: LLM 推論の境界を押し広げる
GRPOはLLMの推論を改善しますが、多くの場合、モデルの「コンフォートゾーン」内にあり、ハードサンプル(合格率0%)は解けないままであり、学習信号はゼロです。NuRLでは、自己生成のヒントでLLMを「ナッジ」することで、モデルの学習ゾーン👉を効果的に拡張し、3つのモデルを使用した6つのベンチマークでpass@1の一貫したゲインを上げ、困難なタスクでpass@1024を上げることを示しています。
重要なポイント:
1⃣GRPOは、モデルが正しく解かない問題から学習することはできませんが、NuRLは自己生成の「ヒント」を使用して、難しい問題を学習可能にします
2⃣抽象的で高レベルのヒントが最も効果的ですが、答えについて明らかにしすぎると、実際にパフォーマンスが低下する可能性があります。
3⃣NuRLは、6つのベンチマークと3つのモデル(GRPOよりも+0.8〜1.8%)でパフォーマンスを向上させ、トレーニング中のロールアウトを減らします
4⃣NuRLは、自己生成されたヒント(外部モデルは不要)で動作し、テスト時のスケーリングと組み合わせると、より大きなゲインを示します
5⃣NuRLは上限を引き上げ、困難なデータセット(GPQA、Date Understandingなど)でpass@1024を最大+7.6%向上させます。
🧵

トップ
ランキング
お気に入り