Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Oletko valmis verkkomittakaavan esikoulutukseen RL:n kanssa? 🚀
🔥 Uusi paperi: RLP: Reinforcement Learning Pre-training
Käännämme tavanomaisen reseptin LLM:ien päättelyyn: sen sijaan, että säästäisimme RL:n harjoittelun jälkeiseen aikaan, tuomme tutkimisen esikoulutukseen.
Ydinidea: käsittele ajatusketjua toimintana.
Palkitse se sen tarjoamalla informaatiovoitolla heti seuraavasta merkistä:
Tämä antaa todentajavapaan, tiheän palkkion tavallisesta tekstistä ilman tehtävien tarkistajia, ei tunnisteita tai suodatusta.
Miksi tällä on merkitystä?
* 🧠 Mallit ajattelevat ennen ennustamista harjoituksen aikana, eivät vasta linjauksen jälkeen.
* 📈 Positiokohtainen luotto jokaisessa tokenissa = vakaa signaali täydessä verkkomittakaavassa.
* Ei 🔁 välityspalvelinsuodattimia tai "easy-token"-heuristiikkaa. Junaa koko purolla.
Tulokset:
8-benchmark matematiikka + tiede -sarjassa (AIME'25, MATH-500, GSM8K, AMC'23, Minerva Math, MMLU, MMLU-Pro, GPQA):
• Qwen3-1.7B-pohja:
RLP parantaa kokonaiskeskiarvoa 24 %!
• Nemotron-nano-12B-v2-emäs:
RLP parantaa kokonaiskeskiarvoa 43 %!...

Johtavat
Rankkaus
Suosikit