Um bom exemplo de por que eu e muitos sussurros de RL dizemos que você precisa usar modelos básicos maiores para RL hoje. Um melhor pré-treinamento fará com que o RL em modelos básicos menores possa resolver tarefas mais difíceis e interessantes. Este é o caminho.