- Generering av små grupper starter med minnebåndbreddebundet og forblir slik når du øker kontekstlengden. - Du kan gjøre den databundet (og treffe disse tensorkjernene) ved å øke batchstørrelsen / antall parallelle forespørsler. -Men etter hvert som kontekstlengden blir lengre begynner den å bli mer båndbreddebundet igjen. - Og det er en grense for hvor stor du kan gjøre batchstørrelsen på grunn av minnebegrensninger. Et sterkt argument for modeller med mindre tilstandsstørrelse. De hjelper deg med å unngå minneveggen selv for batchgenerering, selv når du utvider konteksten