RLは魔法だと思われがちですが、RLは、ほぼ無限のコンピューティングと、環境から多様なサンプルを収集するための寿命がある場合にのみ機能します。 人間は明らかに有限の計算と有限のサンプル体制の下で学習するので、それをどのように行うかを学ぶ価値があります。