- Kleine batchgeneratie begint als geheugenbandbreedte beperkt en blijft dat zo naarmate je de contextlengte vergroot. - Je kunt het rekeneisen laten toenemen (en die tensorcores aanspreken) door de batchgrootte / het aantal parallelle verzoeken te verhogen. - Maar naarmate de contextlengte langer wordt, begint het weer meer bandbreedte beperkt te worden. - En er is een limiet aan hoe groot je de batchgrootte kunt maken vanwege geheugenbeperkingen. Een sterk argument voor modellen met een kleinere staatsgrootte. Ze helpen je de geheugenmuur te vermijden, zelfs voor batchgeneratie, zelfs als je de context vergroot.