Un buen ejemplo de por qué yo y muchos susurradores de RL decimos que necesitas usar modelos base más grandes para RL hoy en día. Un mejor preentrenamiento hará que RL en modelos base más pequeños pueda resolver tareas más difíciles e interesantes. Este es el camino.