nhân tiện. gần đây tôi đã viết một bài báo về điều này! đối với các transformer, con số là khoảng 3.6 bit-mỗi-tham số vì vậy bạn sẽ cần 25GB ÷ 3.6 bit ≈ 56.9B tham số để ghi nhớ chính xác Wikipedia đó thực sự là một mô hình khá lớn