私と多くのRLのささやきが、今日のRLにはより大きなベースモデルを使用する必要があると言う理由の良い例です。 より優れた事前トレーニングにより、より小さな基本モデルでの RL により、より困難で興味深いタスクを解決できるようになります。これが方法だ。