Meta baru saja menjatuhkan hukum penskalaan RL: Kurva sigmoid sederhana dapat memprediksi hasil RL skala besar. Makalah ini menelan biaya ~$4.2 juta (400K GB200 jam) untuk dijalankan. Kesimpulan utama: - Merangkul Pelajaran Pahit: Metode yang tampak lebih unggul pada anggaran komputasi kecil bisa lebih buruk ketika diekstrapolasi ke rezim komputasi besar. - Kebijaksanaan umum seperti agregasi kerugian, normalisasi, algoritma di luar kebijakan, tidak menaikkan plafon kinerja RL. - Menggunakan presisi FP32 di lapisan akhir (kepala LM) memberikan dorongan besar dalam hadiah asimtotik. - Berpikir lebih lama tidak-: konteks yang lebih panjang berlatih lebih lambat tetapi mencapai langit-langit yang lebih tinggi. Makalah yang sangat penting imo. Kerja bagus Meta!