人们认为强化学习(RL)是魔法,但强化学习只有在你拥有近乎无限的计算能力和一生的时间来从环境中收集多样的样本时才有效。 人类显然是在有限的计算和有限的样本条件下学习的,因此了解我们是如何做到这一点是值得的。