一個很好的例子,說明為什麼我和許多 RL 內部人士說,今天你需要使用更大的基礎模型來進行 RL。 更好的預訓練將使得在較小的基礎模型上進行 RL 能夠解決更困難和更有趣的任務。這就是方法。