au fait. J'ai récemment écrit un article à ce sujet ! pour les transformateurs, le nombre est d'environ 3,6 bits par paramètre vous auriez donc besoin de 25 Go ÷ 3,6 bits ≈ 56,9 milliards de paramètres pour mémoriser exactement Wikipédia c'est en fait un modèle assez grand