Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Apakah Anda siap untuk pra-pelatihan skala web dengan RL? 🚀
🔥 Makalah baru: RLP : Pra-pelatihan Pembelajaran Penguatan
Kami membalik resep biasa untuk penalaran LLM: alih-alih menyimpan RL untuk pasca-pelatihan, kami membawa eksplorasi ke dalam prapelatihan.
Ide inti: memperlakukan rantai pemikiran sebagai tindakan.
Hadiahi dengan perolehan informasi yang diberikannya untuk token berikutnya:
Ini memberikan hadiah padat dan bebas verifikasi pada teks biasa tanpa pemeriksa tugas, tanpa label, tanpa pemfilteran.
Mengapa ini penting?
* 🧠 Model berpikir sebelum memprediksi selama pralatihan, bukan hanya setelah penyelarasan.
* 📈 Kredit berdasarkan posisi di setiap token = sinyal stabil pada skala web penuh.
* 🔁 Tidak ada filter proxy atau heuristik "easy-token". Kereta di seluruh aliran.
Hasil:
Pada rangkaian matematika+sains 8 tolok ukur (AIME'25, MATH-500, GSM8K, AMC'23, Minerva Math, MMLU, MMLU-Pro, GPQA):
• Qwen3-1.7B-Basis:
RLP meningkatkan rata-rata keseluruhan sebesar 24% !
• Nemotron-Nano-12B-v2-Base:
RLP meningkatkan rata-rata keseluruhan sebesar 43% !...

Teratas
Peringkat
Favorit