As pessoas pensam que RL é mágica, mas RL só funciona quando você tem computação quase infinita e uma vida inteira para coletar diversas amostras do ambiente. Os humanos obviamente aprendem sob computação finita e regime de amostra finita, então vale a pena aprender como fazemos isso.