por cierto. ¡recientemente escribí un artículo sobre esto! para los transformadores, el número es de aproximadamente 3.6 bits por parámetro así que necesitarías 25GB ÷ 3.6 bits ≈ 56.9B parámetros para memorizar exactamente Wikipedia en realidad, es un modelo bastante grande