Un bun exemplu de ce eu și mulți șoapte RL spunem că trebuie să folosiți modele de bază mai mari pentru RL astăzi. Un preantrenament mai bun va face ca RL pe modele de bază mai mici să poată rezolva sarcini mai dificile și mai interesante. Aceasta este calea.