Mọi người nghĩ rằng RL là phép thuật, nhưng RL chỉ hoạt động khi bạn có khả năng tính toán gần như vô hạn và một cuộc đời để thu thập các mẫu đa dạng từ môi trường. Con người rõ ràng học hỏi dưới chế độ tính toán hữu hạn và mẫu hữu hạn, vì vậy thật đáng để tìm hiểu cách chúng ta làm điều đó.