- 小規模バッチ生成は、メモリ帯域幅の制限から開始され、コンテキストの長さを増やしてもその状態が維持されます。 - バッチサイズ/並列リクエストの数を増やすことで、コンピューティングバウンド(およびそれらのテンソルコアにヒット)することができます。 -しかし、コンテキストの長さが長くなると、再び帯域幅に縛られ始めます。 - また、メモリの制約により、バッチサイズをどれだけ大きくできるかには制限があります。 状態サイズが小さいモデルに対する強力な議論。コンテキストを拡大しても、バッチ生成でもメモリの壁を回避できます