- A geração de pequenos lotes inicia a largura de banda da memória vinculada e permanece assim à medida que você aumenta o comprimento do contexto. - Você pode torná-lo vinculado à computação (e atingir esses núcleos tensores) aumentando o tamanho do lote / número de solicitações paralelas. -Mas à medida que o comprimento do contexto aumenta, ele começa a se tornar mais limitado à largura de banda novamente. - E há um limite para o tamanho do lote devido a restrições de memória. Um forte argumento para modelos com tamanho de estado menor. Eles ajudam a evitar a parede de memória, mesmo para geração em lote, mesmo à medida que você aumenta o contexto