Orang berpikir RL adalah ajaib, tetapi RL hanya berfungsi ketika Anda memiliki komputasi yang hampir tak terbatas dan seumur hidup untuk mengumpulkan beragam sampel dari lingkungan. Manusia jelas belajar di bawah komputasi terbatas dan rezim sampel terbatas, jadi ada baiknya untuk mempelajari bagaimana kita melakukannya.