Oamenii cred că RL este magic, dar RL funcționează doar atunci când ai un calcul aproape infinit și o viață întreagă pentru a colecta diverse mostre din mediu. Oamenii învață în mod evident în regim de calcul finit și eșantion finit, așa că merită să învățăm cum o facem.