一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX | OKX Wallet

熱門話題

諷刺的是，變壓器將整個上下文窗口視為一袋完全缺乏上下文的標記。我們使用位置編碼來使標記的順序具有上下文。但模型仍然不斷困惑於哪個標記是由誰說的。為什麼沒有源編碼？

誰說了什麼，對於意義來說，與他們說的時間一樣基本。如果我們將來源編碼到每個代幣中，無論是來自系統、開發者、用戶、模型本身、模型的思考代幣、不受信任的第三方、特定工具……

這或多或少是一種 2D 位置編碼，其中垂直維度表示誰，水平維度表示何時。這似乎可以省去很多麻煩。想像一下，如果每個人的聲音，包括你自己的聲音和內心獨白，聽起來完全一樣。

@wokohomo @Theurgistic 這就是分詞器的整個要點，或多或少——否則你總是會直接在原始字節的簡單線性投影上進行訓練。

30.79K

熱門

排行

收藏