overigens. onlangs heb ik hier een paper over geschreven! voor transformers is het aantal ongeveer 3,6 bits-per-parameter dus je zou 25GB ÷ 3,6 bits ≈ 56,9B parameters nodig hebben om Wikipedia exact te memoriseren dat is eigenlijk een behoorlijk groot model