Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Meta baru saja menjatuhkan hukum penskalaan RL: Kurva sigmoid sederhana dapat memprediksi hasil RL skala besar.
Makalah ini menelan biaya ~$4.2 juta (400K GB200 jam) untuk dijalankan.
Kesimpulan utama:
- Merangkul Pelajaran Pahit: Metode yang tampak lebih unggul pada anggaran komputasi kecil bisa lebih buruk ketika diekstrapolasi ke rezim komputasi besar.
- Kebijaksanaan umum seperti agregasi kerugian, normalisasi, algoritma di luar kebijakan, tidak menaikkan plafon kinerja RL.
- Menggunakan presisi FP32 di lapisan akhir (kepala LM) memberikan dorongan besar dalam hadiah asimtotik.
- Berpikir lebih lama tidak-: konteks yang lebih panjang berlatih lebih lambat tetapi mencapai langit-langit yang lebih tinggi.
Makalah yang sangat penting imo. Kerja bagus Meta!

Teratas
Peringkat
Favorit