Un buen ejemplo de por qué yo y muchos susurros de RL decimos que necesitas usar modelos base más grandes para RL hoy. Un mejor preentrenamiento hará que RL en modelos base más pequeños pueda resolver tareas más difíciles e interesantes. Este es el camino.