- Генерация малых партий начинает с ограничения по пропускной способности памяти и остается такой при увеличении длины контекста. - Вы можете сделать ее ограниченной по вычислениям (и задействовать эти тензорные ядра), увеличив размер партии / количество параллельных запросов. - Но по мере увеличения длины контекста она снова начинает становиться более ограниченной по пропускной способности. - И есть предел тому, насколько большим вы можете сделать размер партии из-за ограничений памяти. Сильный аргумент в пользу моделей с меньшим размером состояния. Они помогают избежать "стены памяти" даже для генерации партий, даже когда вы увеличиваете контекст.