Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Alex Graveley
Mitschöpfer von GitHub Copilot, Dropbox Paper, AI Tinkerers, Hackpad, MobileCoin, Minion AI, etc. Arbeiten an @PerplexityComet. Überlebende 🎗️
Alex Graveley erneut gepostet
Der technische Bericht von @Meituan_LongCat LongCat-Flash ist verrückt gut und voller Neuheiten.
Das Modell ist ein 560B passives ~27B aktives MoE mit einer adaptiven Anzahl aktiver Parameter, die je nach Kontext dank des Zero-Computational-Experten variieren.
1) Neue Architektur
> Die Schichten haben 2 Attention-Blöcke und sowohl FFN als auch MoE, sodass Sie die beiden All-to-All-Kommunikationen überlappen können. (Es sind auch nur 28 Schichten, aber Sie müssen die 2 Attention-Blöcke berücksichtigen).
> Sie fügen den Zero-Computational-Experten hinzu, den Tokens wählen können und der nichts tut, ähnlich wie ein "Sink" für einfache Tokens.
> Für das Lastenbalancing haben sie einen dsv3-ähnlichen Hilfsverlust, um die durchschnittlichen echten/falschen Experten pro Token frei festzulegen. Sie wenden einen Abbauzeitplan auf dieses Bias-Update an. Sie führen auch eine Verlustausgleichskontrolle durch.
2) Skalierung
> Sie haben Änderungen an MLA/MoE vorgenommen, um eine Variationsausrichtung bei der Initialisierung zu haben. Die Gewinne sind in Abbildung 5 ziemlich beeindruckend, aber ich weiß nicht, inwieweit dies später Auswirkungen hat.
> Das Wachstum des Modells bei der Initialisierung ist ziemlich cool, sie trainieren zuerst ein 2x kleineres Modell und dann "wenn es genug trainiert ist" (hier ist unklar, wie viele B Tokens) initialisieren sie das endgültige Modell, indem sie einfach die Schichten des kleineren Modells stapeln.
> Sie verwendeten das Papier von @_katieeverett @Locchiu und anderen, um den Hyperparametertransfer mit SP anstelle von muP für das 2x kleinere Modell zu haben.
3) Stabilität
> Sie verfolgen das Gradientennormverhältnis und die Kosinusähnlichkeit zwischen den Experten, um das Gewicht des Lastenbalancingverlusts anzupassen (sie empfehlen ein Gradientennormverhältnis <0.1).
> Um große Aktivierungen zu vermeiden, wenden sie einen z-Verlust auf den versteckten Zustand an, mit einem ziemlich kleinen Koeffizienten (eine weitere Alternative zu qk-clip/norm).
> Sie setzen Adam-Epsilon auf 1e-16 und zeigen, dass es niedriger als der Gradient-RMS-Bereich sein sollte.
4) Sonstiges
> Sie trainieren mit 20T Tokens für Phase 1, "mehrere T Tokens" für das mittlere Training mit STEM/code-Daten (70% der Mischung), 100B für die Erweiterung des langen Kontexts ohne Garn (80B für 32k, 20B für 128k). Die langen Kontextdokumente machen 25% der Mischung aus (nicht sicher, ob es % der Dokumente oder Tokens sind, was hier viel ändert).
> Die Pipeline für die Vorverarbeitung der Daten besteht aus Kontextextraktion, Qualitätsfilterung, Dedup.
> Schöner Anhang, in dem sie zeigen, dass sie top_k für verschiedene Benchmarks vergleichen (höheres MMLU mit 8.32, niedrigeres GSM8K mit 7.46). Sie vergleichen auch die Token-Zuweisung in tiefen/flachen Schichten.
> Sie veröffentlichen zwei neue Benchmarks Meeseeks (Multi-Turn IF) und VitaBench (realistische Geschäftsszenarien).
> Viele Details in der Infrastruktur/Inference mit Informationen zur Akzeptanz der spekulativen Dekodierung, Quantisierung, Bereitstellung, Kernel-Optimierung, überlappenden Kommunikationen usw.
> Liste der verschiedenen relevanten Papiere im Thread 🧵

54,84K
Top
Ranking
Favoriten