Люди думают, что RL — это магия, но RL работает только тогда, когда у вас есть почти бесконечные вычислительные мощности и жизнь, чтобы собирать разнообразные образцы из окружающей среды. Люди, очевидно, учатся при конечных вычислениях и конечном количестве образцов, поэтому стоит изучить, как мы это делаем.