Chamath: Dois termos que você precisa prestar atenção em IA são Prefill e Decode "Existem dois termos que eu acho que você vai ouvir muito nos próximos anos." "O primeiro termo é prefill, e o próximo é decode." "O que prefill e decode são, são duas maneiras muito distintas de como os modelos pensam, e como um modelo passa pelo processo de responder a uma pergunta que você faz." "E assim, quando você envia um prompt para a IA, o que acontece é que o modelo o processa. Isso é chamado de fase de leitura ou prefill." "Ele lê todo o seu prompt de uma vez. E então ele faz um monte de cálculos, calcula todas essas relações entre todas as palavras, e as armazena na memória temporária." "O problema é que isso é realmente limitado pelo poder computacional. Então, requer uma força bruta massiva. E as GPUs da Nvidia se destacam aqui." "E sua arquitetura é projetada para processamento paralelo massivo, o que as torna realmente incríveis em digerir esses longos prompts." "Então, o problema só fica maior e maior, a Nvidia simplesmente domina completamente." "Mas a próxima fase, no entanto, essa fase crítica, a fase de decode, é a fase de escrita, certo?" "Então o modelo começa a gerar uma resposta, você faz uma pergunta e sua resposta, um token de cada vez." "E então, para escolher o próximo token, a próxima palavra, ele tem que olhar para tudo o que já disse para que não haja alucinações." "O problema é que isso é incrivelmente limitado pela largura de banda da memória." "E na nossa arquitetura, há muito tempo, tomamos essas decisões de design desde o primeiro dia." "E assim, o que fizemos foi adotar uma abordagem arquitetônica muito diferente, adotamos uma tecnologia de processo muito conservadora. Não estávamos ultrapassando os limites da física." ...