- La generación de lotes pequeños comienza con un límite de ancho de banda de memoria y permanece así a medida que aumenta la longitud del contexto. - Puede hacer que esté vinculado a la computación (y alcanzar esos núcleos tensoriales) aumentando el tamaño del lote / número de solicitudes paralelas. -Pero a medida que la longitud del contexto se alarga, comienza a estar más limitado al ancho de banda nuevamente. - Y hay un límite en el tamaño del lote debido a las limitaciones de memoria. Un fuerte argumento a favor de los modelos con un tamaño de estado más pequeño. Le ayudan a evitar el muro de memoria incluso para la generación por lotes, incluso a medida que aumenta el contexto