- La generación en pequeños lotes comienza siendo limitada por el ancho de banda de la memoria y sigue así a medida que aumentas la longitud del contexto. - Puedes hacer que sea limitada por el cálculo (y aprovechar esos núcleos tensoriales) aumentando el tamaño del lote / número de solicitudes paralelas. - Pero a medida que la longitud del contexto se alarga, comienza a volverse más limitada por el ancho de banda nuevamente. - Y hay un límite en cuán grande puedes hacer el tamaño del lote debido a las limitaciones de memoria. Un fuerte argumento a favor de modelos con un tamaño de estado más pequeño. Te ayudan a evitar el muro de la memoria incluso para la generación en lotes, incluso a medida que aumentas el contexto.