кстати. недавно написал статью об этом! для трансформеров число составляет около 3.6 бит на параметр так что вам нужно 25 ГБ ÷ 3.6 бит ≈ 56.9B параметров, чтобы точно запомнить Википедию это довольно большая модель на самом деле