- Việc tạo ra lô nhỏ bắt đầu bị giới hạn bởi băng thông bộ nhớ và vẫn giữ nguyên điều đó khi bạn tăng độ dài ngữ cảnh. - Bạn có thể làm cho nó bị giới hạn bởi tính toán (và tận dụng các lõi tensor) bằng cách tăng kích thước lô / số lượng yêu cầu song song. - Nhưng khi độ dài ngữ cảnh trở nên dài hơn, nó bắt đầu trở lại bị giới hạn bởi băng thông một lần nữa. - Và có một giới hạn về kích thước lô mà bạn có thể tạo ra do các hạn chế về bộ nhớ. Một lập luận mạnh mẽ cho các mô hình có kích thước trạng thái nhỏ hơn. Chúng giúp bạn tránh được bức tường bộ nhớ ngay cả khi tạo lô, ngay cả khi bạn mở rộng ngữ cảnh.