La gente piensa que RL es mágico, pero RL solo funciona cuando tiene un cómputo casi infinito y una vida útil para recolectar diversas muestras del entorno. Obviamente, los humanos aprenden bajo un régimen de computación finito y un régimen de muestra finito, por lo que vale la pena aprender cómo lo hacemos.