- Generowanie małych partii zaczyna się od ograniczeń przepustowości pamięci i pozostaje w ten sposób, gdy zwiększasz długość kontekstu. - Możesz uczynić to ograniczeniem obliczeniowym (i wykorzystać te rdzenie tensorowe), zwiększając rozmiar partii / liczbę równoległych żądań. - Ale gdy długość kontekstu staje się dłuższa, zaczyna ponownie stawać się bardziej ograniczona przez przepustowość. - I istnieje limit, jak duży możesz zrobić rozmiar partii z powodu ograniczeń pamięci. Silny argument za modelami o mniejszym rozmiarze stanu. Pomagają ci unikać ściany pamięci nawet przy generowaniu partii, nawet gdy zwiększasz kontekst.