Một ví dụ tốt về lý do tại sao tôi và nhiều người trong cộng đồng RL nói rằng bạn cần sử dụng các mô hình cơ sở lớn hơn cho RL ngày nay. Việc huấn luyện trước tốt hơn sẽ giúp cho RL trên các mô hình cơ sở nhỏ hơn có thể giải quyết những nhiệm vụ khó khăn và thú vị hơn. Đây là cách thức.