forresten. skrev nylig en artikkel om dette! For transformatorer er tallet omtrent 3,6 biter per parameter så du trenger 25 GB ÷ 3,6 bits ≈ 56,9 B parametere for å huske Wikipedia nøyaktig Det er en ganske stor modell faktisk