Dobrym przykładem na to, dlaczego ja i wielu szepczących o RL mówimy, że dzisiaj trzeba używać większych modeli bazowych dla RL. Lepsze wstępne szkolenie sprawi, że RL na mniejszych modelach bazowych będzie mogło rozwiązywać trudniejsze i bardziej interesujące zadania. To jest droga.