諷刺的是,變壓器將整個上下文窗口視為一袋完全缺乏上下文的標記。 我們使用位置編碼來使標記的順序具有上下文。但模型仍然不斷困惑於哪個標記是由誰說的。為什麼沒有源編碼?
誰說了什麼,對於意義來說,與他們說的時間一樣基本。如果我們將來源編碼到每個代幣中,無論是來自系統、開發者、用戶、模型本身、模型的思考代幣、不受信任的第三方、特定工具……
這或多或少是一種 2D 位置編碼,其中垂直維度表示誰,水平維度表示何時。這似乎可以省去很多麻煩。想像一下,如果每個人的聲音,包括你自己的聲音和內心獨白,聽起來完全一樣。
@wokohomo @Theurgistic 這就是分詞器的整個要點,或多或少——否則你總是會直接在原始字節的簡單線性投影上進行訓練。
30.79K