- 小批量生成一開始是受限於記憶體帶寬,並且隨著上下文長度的增加仍然保持這種狀態。 - 你可以通過增加批量大小/並行請求的數量來使其變為計算受限(並利用那些張量核心)。 - 但是隨著上下文長度變長,它又開始變得更加受限於帶寬。 - 而且,由於記憶體限制,批量大小的增大是有上限的。 這對於狀態大小較小的模型是一個強有力的論據。即使在增長上下文的情況下,它們也能幫助你避免記憶體瓶頸,即使在批量生成時。