Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚨 NuRL: Spingere i confini del ragionamento LLM
GRPO migliora il ragionamento LLM, ma spesso all'interno della "zona di comfort" del modello: i campioni difficili (con tasso di successo del 0%) rimangono irrisolvibili e non contribuiscono a segnali di apprendimento. In NuRL, dimostriamo che "spingere" il LLM con suggerimenti auto-generati espande efficacemente la zona di apprendimento del modello 👉 guadagni costanti in pass@1 su 6 benchmark con 3 modelli e aumenta pass@1024 su compiti impegnativi!
Punti chiave:
1⃣GRPO non può apprendere da problemi che il modello non risolve mai correttamente, ma NuRL utilizza "suggerimenti" auto-generati per rendere i problemi difficili apprendibili
2⃣Suggerimenti astratti e ad alto livello funzionano meglio: rivelare troppo sulla risposta può effettivamente danneggiare le prestazioni!
3⃣NuRL migliora le prestazioni su 6 benchmark e 3 modelli (+0.8-1.8% rispetto a GRPO), utilizzando meno rollout durante l'addestramento
4⃣NuRL funziona con suggerimenti auto-generati (nessun modello esterno necessario) e mostra guadagni maggiori quando combinato con la scalabilità al momento del test
5⃣NuRL alza il limite superiore: aumenta pass@1024 fino a +7.6% su dataset impegnativi (ad es., GPQA, Comprensione delle Date)
🧵

Principali
Ranking
Preferiti