- Невелика пакетна генерація починається з обмеженою пропускною здатністю пам'яті і залишається такою в міру збільшення довжини контексту. - Ви можете зробити його прив'язаним до обчислень (і вдарити по цих тензорних ядрах), збільшивши розмір партії / кількість паралельних запитів. -Але в міру того, як довжина контексту стає більшою, він знову починає ставати більш обмеженим пропускною здатністю. - І є обмеження на те, наскільки великим ви можете зробити розмір партії через обмеження пам'яті. Вагомий аргумент на користь моделей з меншим розміром стану. Вони допомагають уникнути стіни пам'яті навіть під час пакетної генерації, навіть якщо ви розширюєте контекст