A propósito. recentemente escreveu um artigo sobre isso! Para transformadores, o número é de cerca de 3,6 bits por parâmetro então você precisaria de 25 GB ÷ 3,6 bits ≈ 56,9 bilhões de parâmetros para memorizar exatamente a Wikipedia esse é um modelo muito grande, na verdade