- La génération en petites séries commence par être limitée par la bande passante de la mémoire et reste ainsi à mesure que vous augmentez la longueur du contexte. - Vous pouvez la rendre limitée par le calcul (et atteindre ces cœurs de tenseurs) en augmentant la taille du lot / le nombre de requêtes parallèles. - Mais à mesure que la longueur du contexte s'allonge, elle commence à redevenir plus limitée par la bande passante. - Et il y a une limite à la taille que vous pouvez donner au lot en raison des contraintes de mémoire. Un argument fort en faveur des modèles avec une taille d'état plus petite. Ils vous aident à éviter le mur de la mémoire même pour la génération par lots, même lorsque vous augmentez le contexte.