Um bom exemplo do porquê de eu e muitos sussurros de RL dizermos que você precisa usar modelos base maiores para RL hoje. Um melhor pré-treinamento fará com que RL em modelos base menores consiga resolver tarefas mais difíceis e interessantes. Este é o caminho.