SWAX: kurze Fenster, langes Gedächtnis • Hybrid aus Sliding-Window-Attention + xLSTM RNN • Gegenintuitiv: kürzere Fenster → bessere langfristige Erinnerung • Lösung: stochastische Fenstergrößen = starke Leistung im kurzen und langen Kontext • Übertrifft feste Fenster-Attention