- A geração de pequenos lotes começa a ser limitada pela largura de banda da memória e continua assim à medida que aumenta o comprimento do contexto. - Você pode torná-la limitada pelo cálculo (e atingir aqueles núcleos de tensor) aumentando o tamanho do lote / número de solicitações paralelas. - Mas à medida que o comprimento do contexto aumenta, começa a se tornar mais limitada pela largura de banda novamente. - E há um limite para o quão grande você pode fazer o tamanho do lote devido a restrições de memória. Um forte argumento a favor de modelos com menor tamanho de estado. Eles ajudam a evitar o muro da memória mesmo para a geração de lotes, mesmo à medida que você aumenta o contexto.