Chamath: Due termini a cui devi prestare attenzione nell'AI sono Prefill e Decode "Ci sono due termini di cui penso che sentirai parlare molto nei prossimi anni." "Il primo termine è prefill, e il secondo è decode." "Cosa sono prefill e decode? Sono due modi molto distinti di come i modelli pensano e di come un modello affronta il processo di risposta a una domanda che gli poni." "E quindi quando invii un prompt all'AI, ciò che accade è che il modello lo elabora. Questa è chiamata fase di lettura o prefill." "Legge l'intero prompt tutto in una volta. E poi fa un sacco di calcoli, calcola tutte queste relazioni tra tutte le parole e le memorizza nella memoria temporanea." "Il problema è che questo è davvero vincolato dal calcolo. Quindi richiede una forza bruta massiccia. E le GPU Nvidia eccellono qui." "E la loro architettura è progettata per un'elaborazione massiccia in parallelo, il che le rende davvero straordinarie nel digerire questi lunghi prompt." "Quindi il problema diventa sempre più grande, Nvidia domina completamente." "Ma la fase successiva, però, questa fase critica, la fase di decode, è la fase di scrittura, giusto?" "Quindi il modello inizia a generare una risposta, gli poni una domanda e la sua risposta, un token alla volta." "E poi per scegliere il prossimo token, per scegliere la prossima parola, deve guardare indietro a tutto ciò che ha già detto in modo da non allucinare." "Il problema è che questo è incredibilmente vincolato dalla larghezza di banda della memoria." "E nella nostra architettura, molto tempo fa, abbiamo preso queste decisioni di design fin dal primo giorno." "E quindi ciò che abbiamo fatto è stato adottare un approccio architettonico molto diverso, abbiamo adottato una tecnologia di processo molto conservativa. Non stavamo spingendo i confini della fisica." ...