熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
@Meituan_LongCat 的 LongCat-Flash 技術報告非常出色,充滿了新穎性。
該模型是一個 560B 被動 ~27B 活動 MoE,具有根據上下文自適應的活動參數數量,這要歸功於零計算專家。
1) 新架構
> 層具有 2 個注意力塊,同時包含 FFN 和 MoE,這樣可以重疊這兩個全連接通信。(雖然只有 28 層,但必須考慮到 2 個注意力塊)。
> 他們添加了零計算專家,令標記可以選擇並不做任何事情,有點像“水槽”用於簡單標記。
> 為了負載均衡,他們有一個類似 dsv3 的輔助損失,可以自由設置每個標記的真實/虛假專家的平均值。他們對這個偏差更新應用了衰減計劃。他們還進行了損失平衡控制。
2) 擴展
> 他們對 MLA/MoE 進行了更改,以在初始化時實現方差對齊。圖 5 中的增益相當令人印象深刻,但我不知道這在後期會產生多大影響。
> 模型增長初始化相當酷,他們首先訓練一個小 2 倍的模型,然後“當它訓練得足夠好時”(這裡不太清楚需要多少 B 個標記)通過簡單堆疊小模型的層來初始化最終模型。
> 他們使用了 @_katieeverett @Locchiu 等人的論文,通過 SP 而不是 muP 進行超參數轉移,以適應 2 倍小的模型。
3) 穩定性
> 他們跟蹤梯度範數比和專家之間的餘弦相似度,以調整負載均衡損失的權重(他們建議梯度範數比 <0.1)。
> 為了避免大激活,他們對隱藏狀態應用了 z-loss,係數相當小(這是 qk-clip/norm 的另一種替代方案)。
> 他們將 Adam 的 epsilon 設置為 1e-16,並表明希望其低於梯度 RMS 範圍。
4) 其他
> 他們在階段 1 上訓練了 20T 個標記,在 STEM/code 數據上進行中期訓練時“多個 T 的標記”(混合物的 70%),在沒有紗線的情況下進行長上下文擴展時為 100B(32k 為 80B,128k 為 20B)。長上下文文檔占混合物的 25%(不確定這是文檔的百分比還是標記的百分比,這裡變化很大)。
> 預訓練數據管道是上下文提取、質量過濾、去重。
> 附錄中很好地展示了他們比較不同基準所需的 top_k(MMLU 較高為 8.32,GSM8K 較低為 7.46)。他們還比較了深層/淺層的標記分配。
> 他們發布了兩個新的基準 Meeseeks(多輪 IF)和 VitaBench(現實世界商業場景)。
> 在基礎設施/推理方面有很多細節,包括關於投機解碼接受、量化、部署、內核優化、通信重疊等的信息。
> 線程中列出了不同的相關論文 🧵

82.23K
熱門
排行
收藏