Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
- La génération en petites séries commence par être limitée par la bande passante de la mémoire et reste ainsi à mesure que vous augmentez la longueur du contexte.
- Vous pouvez la rendre limitée par le calcul (et atteindre ces cœurs de tenseurs) en augmentant la taille du lot / le nombre de requêtes parallèles.
- Mais à mesure que la longueur du contexte s'allonge, elle commence à redevenir plus limitée par la bande passante.
- Et il y a une limite à la taille que vous pouvez donner au lot en raison des contraintes de mémoire.
Un argument fort en faveur des modèles avec une taille d'état plus petite. Ils vous aident à éviter le mur de la mémoire même pour la génération par lots, même lorsque vous augmentez le contexte.

Meilleurs
Classement
Favoris