一个很好的例子说明了为什么我和许多强化学习的专家说,今天你需要使用更大的基础模型进行强化学习。 更好的预训练将使得在较小基础模型上的强化学习能够解决更困难和更有趣的任务。这就是方法。