Ironia della sorte, i trasformatori vedono l'intero contesto come un sacchetto di token completamente privo di contesto. Utilizziamo l'encoding posizionale per contestualizzare l'ordine dei token. Ma i modelli sono ancora costantemente confusi su quale token sia stato detto da chi. Perché non c'è un'encoding di origine?
Chi ha detto cosa è tanto fondamentale per il significato quanto quando lo ha detto. E se codificassimo in ciascun token la fonte, che sia dal sistema, dallo sviluppatore, dall'utente, dal modello stesso, dai token di pensiero del modello, da una terza parte non affidabile, da uno strumento particolare…
Questo è più o meno un'encoding posizionale 2D in cui la dimensione verticale indica chi e quella orizzontale indica quando. Sembra che potrebbe risparmiare molti mal di testa. Immagina se la voce di tutti, compresa la tua e il tuo monologo interiore, suonasse esattamente la stessa.
@wokohomo @Theurgistic Questo è più o meno l'intero punto del tokenizer, altrimenti dovresti sempre addestrare direttamente su una semplice proiezione lineare dei byte grezzi.
31,2K