SWAX: jendela pendek, memori panjang • Hibrida jendela geser attn + xLSTM RNN • Kontra-intuitif: jendela yang lebih pendek → penarikan jangka panjang yang lebih baik • Perbaiki: ukuran jendela stokastik = kinerja konteks pendek + panjang yang kuat • Mengungguli perhatian jendela tetap