SWAX: cửa sổ ngắn, trí nhớ dài • Kết hợp giữa attention cửa sổ trượt + xLSTM RNN • Ngược lại với trực giác: cửa sổ ngắn hơn → khả năng ghi nhớ dài hạn tốt hơn • Giải pháp: kích thước cửa sổ ngẫu nhiên = hiệu suất ngữ cảnh ngắn và dài mạnh mẽ • Vượt trội hơn so với attention cửa sổ cố định