Contoh yang baik mengapa saya dan banyak bisikan RL mengatakan bahwa Anda perlu menggunakan model dasar yang lebih besar untuk RL hari ini. Prapelatihan yang lebih baik akan membuatnya RL pada model dasar yang lebih kecil dapat menyelesaikan tugas yang lebih sulit dan lebih menarik. Ini caranya.