Omong-omong. baru-baru ini menulis makalah tentang ini! Untuk transformator, jumlahnya sekitar 3,6 bit per parameter jadi Anda membutuhkan 25GB ÷ 3.6 bit ≈ parameter 56.9B untuk menghafal Wikipedia dengan tepat Itu model yang cukup besar sebenarnya