Les gens pensent que l'apprentissage par renforcement (RL) est magique, mais le RL ne fonctionne que lorsque vous avez un calcul presque infini et une vie entière pour collecter des échantillons divers de l'environnement. Les humains apprennent évidemment sous un régime de calcul fini et d'échantillons finis, donc il est utile d'apprendre comment nous le faisons.