Un bon exemple de pourquoi moi et beaucoup de chuchoteurs RL disons que vous devez utiliser des modèles de base plus grands pour le RL aujourd'hui. Un meilleur préentraînement fera en sorte que le RL sur des modèles de base plus petits puisse résoudre des tâches plus difficiles et plus intéressantes. C'est la voie à suivre.