SWAX:短窗口,長記憶 • 滑動窗口注意力 + xLSTM RNN 的混合 • 反直覺:較短的窗口 → 更好的長期回憶 • 解決方案:隨機窗口大小 = 強大的短期和長期上下文表現 • 超越固定窗口注意力