顺便说一下。我最近写了一篇关于这个的论文! 对于变压器,参数大约是每个参数 3.6 位 所以你需要 25GB ÷ 3.6 位 ≈ 56.9B 个参数才能准确记住维基百科 实际上这是一个相当大的模型