Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Apakah penyelarasan online satu-satunya jalan yang harus ditempuh meskipun lambat dan mahal secara komputasi?
Terinspirasi oleh teori prospek, kami memberikan penjelasan yang berpusat pada manusia tentang mengapa penyelarasan online (misalnya GRPO) mengungguli penyelarasan offline (misalnya DPO, KTO) dan secara empiris menunjukkan cara menutup kesenjangan online-offline dengan Humanline, desain dua bagian yang sederhana namun efektif secara konsisten.
💡Temuan utama: Menerapkan humanline di atas tujuan offline dapat bekerja setara dengan rekan-rekan online mereka baik dalam mengikuti instruksi maupun penalaran matematis. Keuntungan yang konsisten di berbagai tujuan, keluarga model, dan ukuran model!
Lebih banyak di utas 🧵

Teratas
Peringkat
Favorit