a proposito. recentemente ho scritto un articolo su questo! per i trasformatori, il numero è di circa 3,6 bit per parametro quindi avresti bisogno di 25GB ÷ 3,6 bit ≈ 56,9B parametri per memorizzare esattamente Wikipedia è un modello piuttosto grande in realtà