- 小批量生成开始时受限于内存带宽,并且随着上下文长度的增加仍然保持这种状态。 - 通过增加批量大小/并行请求数量,可以使其变为计算受限(并利用这些张量核心)。 - 但随着上下文长度的增加,它又开始变得更加受限于带宽。 - 由于内存限制,批量大小的最大值是有限的。 这是对具有较小状态大小模型的有力论据。即使在增加上下文时,它们也能帮助你避免内存瓶颈,尤其是在批量生成时。