As pessoas pensam que o RL é magia, mas o RL só funciona quando você tem computação quase infinita e uma vida inteira para coletar amostras diversas do ambiente. Os humanos, obviamente, aprendem sob um regime de computação finita e amostras finitas, então vale a pena aprender como fazemos isso.