- Generarea de loturi mici începe cu lățimea de bandă a memoriei și rămâne așa pe măsură ce măriți lungimea contextului. - Îl puteți face legat de calcul (și să atingeți acele nuclee tensoriale) prin creșterea dimensiunii lotului / numărul de solicitări paralele. -Dar pe măsură ce lungimea contextului devine mai mare, începe să devină din nou mai legată de lățimea de bandă. - Și există o limită la cât de mare puteți face dimensiunea lotului din cauza constrângerilor de memorie. Un argument puternic pentru modelele cu dimensiuni mai mici ale stării. Acestea vă ajută să evitați peretele de memorie chiar și pentru generarea de loturi, chiar și pe măsură ce creșteți contextul