A propósito. ¡Recientemente escribí un artículo sobre esto! Para los transformadores, el número es de aproximadamente 3,6 bits por parámetro por lo que necesitaría 25 GB ÷ 3.6 bits ≈ parámetros de 56.9B para memorizar exactamente Wikipedia ese es un modelo bastante grande en realidad