Folk tror att RL är magi, men RL fungerar bara när du har nästan oändlig beräkning och en livstid för att samla in olika prover från miljön. Människor lär sig uppenbarligen under ändlig beräkning och ändlig provregim, så det är värt besväret att lära sig hur vi gör det.