SWAX:短窗口,长记忆 • 滑动窗口注意力与 xLSTM RNN 的混合 • 反直觉:更短的窗口 → 更好的长期回忆 • 解决方案:随机窗口大小 = 强大的短期和长期上下文表现 • 超越固定窗口注意力