Люди думають, що RL – це магія, але RL працює лише тоді, коли у вас є майже нескінченні обчислення та все життя, щоб збирати різноманітні зразки з навколишнього середовища. Люди, очевидно, вчаться в умовах скінченних обчислень і режиму скінченної вибірки, тому варто дізнатися, як ми це робимо.