DApp Store | Pusat Web3 untuk Event & Game

Topik trending

🚨 NuRL: Mendorong Batas Penalaran LLM GRPO meningkatkan penalaran LLM, tetapi seringkali dalam "zona nyaman" model: sampel keras (dengan tingkat kelulusan 0%) tetap tidak dapat dipecahkan dan tidak berkontribusi pada sinyal pembelajaran. Di NuRL, kami menunjukkan bahwa "mendorong" LLM dengan petunjuk yang dihasilkan sendiri secara efektif memperluas zona 👉pembelajaran model keuntungan yang konsisten dalam pass@1 pada 6 tolok ukur dengan 3 model & meningkatkan pass@1024 pada tugas-tugas yang menantang! Kesimpulan utama: 1⃣GRPO tidak dapat belajar dari masalah yang tidak pernah diselesaikan model dengan benar, tetapi NuRL menggunakan "petunjuk" yang dihasilkan sendiri untuk membuat masalah sulit dapat dipelajari 2⃣Petunjuk abstrak dan tingkat tinggi bekerja paling baik—mengungkapkan terlalu banyak tentang jawabannya sebenarnya dapat merusak kinerja! 3⃣NuRL meningkatkan kinerja di 6 tolok ukur dan 3 model (+0,8-1,8% dibandingkan GRPO), sekaligus menggunakan lebih sedikit peluncuran selama pelatihan 4⃣NuRL bekerja dengan petunjuk yang dihasilkan sendiri (tidak diperlukan model eksternal) dan menunjukkan keuntungan yang lebih besar saat dikombinasikan dengan penskalaan waktu pengujian 5⃣NuRL menaikkan batas atas: meningkatkan pass@1024 hingga +7,6% pada kumpulan data yang menantang (misalnya, GPQA, Pemahaman Tanggal) 🧵

Teratas

Peringkat

Favorit