Apakah Anda siap untuk pra-pelatihan skala web dengan RL? 🚀 🔥 Makalah baru: RLP : Pra-pelatihan Pembelajaran Penguatan Kami membalik resep biasa untuk penalaran LLM: alih-alih menyimpan RL untuk pasca-pelatihan, kami membawa eksplorasi ke dalam prapelatihan. Ide inti: memperlakukan rantai pemikiran sebagai tindakan. Hadiahi dengan perolehan informasi yang diberikannya untuk token berikutnya: Ini memberikan hadiah padat dan bebas verifikasi pada teks biasa tanpa pemeriksa tugas, tanpa label, tanpa pemfilteran. Mengapa ini penting? * 🧠 Model berpikir sebelum memprediksi selama pralatihan, bukan hanya setelah penyelarasan. * 📈 Kredit berdasarkan posisi di setiap token = sinyal stabil pada skala web penuh. * 🔁 Tidak ada filter proxy atau heuristik "easy-token". Kereta di seluruh aliran. Hasil: Pada rangkaian matematika+sains 8 tolok ukur (AIME'25, MATH-500, GSM8K, AMC'23, Minerva Math, MMLU, MMLU-Pro, GPQA): • Qwen3-1.7B-Basis: RLP meningkatkan rata-rata keseluruhan sebesar 24% ! • Nemotron-Nano-12B-v2-Base: RLP meningkatkan rata-rata keseluruhan sebesar 43% !...