é possível pré-treinar um modelo de linguagem usando aprendizado por reforço puro desde o início? pesos aleatórios, sem pré-treinamento com perda de entropia cruzada. você pode ter muitas perguntas na sua cabeça.
119,58K