Oletko valmis verkkomittakaavan esikoulutukseen RL:n kanssa? 🚀 🔥 Uusi paperi: RLP: Reinforcement Learning Pre-training Käännämme tavanomaisen reseptin LLM:ien päättelyyn: sen sijaan, että säästäisimme RL:n harjoittelun jälkeiseen aikaan, tuomme tutkimisen esikoulutukseen. Ydinidea: käsittele ajatusketjua toimintana. Palkitse se sen tarjoamalla informaatiovoitolla heti seuraavasta merkistä: Tämä antaa todentajavapaan, tiheän palkkion tavallisesta tekstistä ilman tehtävien tarkistajia, ei tunnisteita tai suodatusta. Miksi tällä on merkitystä? * 🧠 Mallit ajattelevat ennen ennustamista harjoituksen aikana, eivät vasta linjauksen jälkeen. * 📈 Positiokohtainen luotto jokaisessa tokenissa = vakaa signaali täydessä verkkomittakaavassa. * Ei 🔁 välityspalvelinsuodattimia tai "easy-token"-heuristiikkaa. Junaa koko purolla. Tulokset: 8-benchmark matematiikka + tiede -sarjassa (AIME'25, MATH-500, GSM8K, AMC'23, Minerva Math, MMLU, MMLU-Pro, GPQA): • Qwen3-1.7B-pohja: RLP parantaa kokonaiskeskiarvoa 24 %! • Nemotron-nano-12B-v2-emäs: RLP parantaa kokonaiskeskiarvoa 43 %!...