Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Er du klar for fortrening på nettskala med RL? 🚀
🔥 Ny artikkel: RLP: Forsterkende læring før trening
Vi snur den vanlige oppskriften på resonnerende LLM-er: i stedet for å spare RL til ettertrening, tar vi med oss utforskning inn i pre-training.
Kjerneidé: behandle tankekjede som en handling.
Belønn den med informasjonsgevinsten den gir for det neste tokenet:
Dette gir en verifikatorfri, tett belønning på vanlig tekst uten oppgavesjekkere, ingen etiketter, ingen filtrering.
Hvorfor er dette viktig?
* 🧠 Modeller tenker før de forutsier under fortrening, ikke bare etter justering.
* 📈 Posisjonsmessig kreditt ved hvert token = stabilt signal i full nettskala.
* 🔁 Ingen proxy-filtre eller "easy-token"-heuristikk. Tog på hele bekken.
Resultater:
På 8-benchmark matematikk + vitenskapspakken (AIME'25, MATH-500, GSM8K, AMC'23, Minerva Math, MMLU, MMLU-Pro, GPQA):
• Qwen3-1.7B-base:
RLP forbedrer det totale gjennomsnittet med 24 %!
• Nemotron-Nano-12B-V2-Base:
RLP forbedrer det totale gjennomsnittet med 43 %!...

Topp
Rangering
Favoritter