- Generování malých dávek začíná vázáno na šířku pásma paměti a zůstává tak i při prodlužování délky kontextu. - Můžete ji nastavit jako výpočetně vázanou (a zasáhnout tato jádra tenzoru) zvýšením velikosti dávky / počtu paralelních požadavků. -Ale jak se délka kontextu prodlužuje, začíná být opět více vázán na šířku pásma. - A existuje limit, jak velkou velikost dávky můžete udělat z důvodu omezení paměti. Silný argument pro modely s menší velikostí stavu. Pomáhají vám vyhnout se paměťové zdi i při dávkovém generování, i když rozšiřujete kontext