Loja DApp | Hub Web3 para eventos e jogos

Tópicos populares

Deixe-me pintar o quadro. Digamos que você quer um Humanoide para cozinhar um jantar delicioso enquanto você se senta no sofá e assiste Netflix. Como isso funcionaria a nível técnico, uma vez que o Humanoide requer vários cérebros para preparar seu jantar? A inteligência do robô não é monolítica, mas uma equipe de módulos de IA que combinam deliberação lenta com reflexos rápidos (design do Sistema 2 + Sistema 1). Seu modelo de visão-linguagem-ação (VLA) divide a cognição em um módulo de raciocínio e uma política de controle reativa. Como o robô está operando em uma arquitetura cognitiva de múltiplos cérebros, ele ativaria um operador “chef” dedicado para lidar com seu pedido, como inspecionar a cozinha com suas câmeras, procurar uma receita e, em seguida, direcionar seus membros para começar a cortar vegetais. Esses cérebros podem ser divididos nos seguintes operadores. Cérebro #1: Para cozinhar um jantar delicioso, você precisa de um planejador executivo. Ele interpreta seu comando (“prepare o jantar”) para determinar o objetivo (fazer macarrão). Usando compreensão de linguagem natural, ele decide quais subtarefas são necessárias (encontrar ingredientes, cozinhar macarrão, arrumar a mesa etc.) e quais outros cérebros devem lidar com cada uma. Ele coordena o sistema multiagente: ativando módulos especializados para visão, conhecimento e movimento. Este cérebro deliberativo (sistema 2) toma decisões de alto nível, traça a abordagem e aloca responsabilidades antes que qualquer movimento físico comece. Cérebro #2: Agora que você tem a receita, você precisará de alguns olhos robóticos e consciência espacial. Ele processa feeds de câmera para identificar ingredientes, ferramentas e suas localizações na cozinha. Usando visão computacional avançada, ele vê a tábua de cortar, os vegetais na geladeira, a faca na bancada etc. Ele constrói um mapa 3D do ambiente e rastreia objetos relevantes (como onde estão o sal ou as panelas). Este cérebro perceptual (Sistema 2) funciona mais lentamente do que os reflexos, mas fornece um contexto preciso da cena para o planejamento. Ao reconhecer todas as peças envolvidas, ele educa o robô no mundo real. Cérebro #3: Este cérebro atua como a base de conhecimento e memória do robô (Sistema 2). Ele recupera e analisa informações necessárias para a tarefa, neste caso, uma receita adequada e instruções de cozimento. Ele pode consultar um livro de receitas online ou seu banco de dados interno para uma receita de macarrão, e então interpretar os passos (ferver água, picar alho, etc). Ele recorda fatos sobre a cozinha (como onde as especiarias são guardadas) e experiências de cozimento passadas. Essencialmente, fornece compreensão semântica e conhecimento do mundo. Em seguida, computa instruções abstratas (caramelizar as cebolas) em parâmetros concretos (temperatura, tempo) que o robô pode executar, garantindo que o plano esteja alinhado com suas preferências. Cérebro #4: Com o objetivo e o ambiente esclarecidos, elaboramos um plano de ação detalhado. Ele divide o objetivo de alto nível em ações ordenadas e etapas condicionais. Ele agenda tarefas (às vezes em paralelo, como pré-aquecer o forno enquanto corta vegetais) e define marcos (água fervida, molho pronto). Ele também rastreia o progresso e pode replanejar em tempo real se algo mudar (digamos que um ingrediente está faltando). Em seguida, ele entrega essa sequência de ações para os cérebros de nível de movimento para execução. Outro cérebro do Sistema 2. Cérebro #5: Hora de passar da arquitetura do Sistema 2 para o Sistema 1, traduzindo o plano em movimentos robóticos concretos. Para cada ação (como “andar até a geladeira” ou “cortar cenouras”), ele gera trajetórias aplicáveis para o corpo e membros do robô. Este módulo lida com planejamento de caminho e cinemática inversa, calculando caminhos e ângulos das articulações para que o robô se mova suavemente sem colisões. Ele geralmente aplica políticas motoras aprendidas (como uma política de transformador de difusão) para produzir movimentos fluidos para tarefas complexas. Se o Cérebro 4 diz para pegar uma panela da geladeira, o Cérebro 5 descobre como levar o robô até lá e como agarrar a panela. Onde ele coordena múltiplos membros quando necessário (usando duas mãos para levantar uma panela pesada, por exemplo). A intenção de alto nível se transforma em uma convergência de hardware e software em movimento. Cérebro #6: Uma vez que um plano de movimento está definido, é hora de executar. Este cérebro de controle de baixo nível do Sistema 1 aciona os atuadores do robô (motores e articulações). Ele lê continuamente os sensores (ângulos das articulações, força, equilíbrio) e envia sinais de controle para seguir a trajetória. Usando laços de controle (controladores PID, controle preditivo de modelo etc.) para manter a precisão, se o robô começar a tombar ou uma faca desviar do curso, ele corrige instantaneamente. Esses são os reflexos e habilidades motoras finas operando em velocidades de milissegundos. Enquanto o robô corta uma cenoura, o Cérebro 6 modula a força e ajusta o ângulo da lâmina para obter fatias uniformes sem escorregar. É como a “memória muscular” subconsciente do sistema, lidando automaticamente com detalhes de baixo nível. Cérebro #7: A peça final é focar na melhoria contínua. Durante e após a preparação do jantar, ele analisa o desempenho. Ele derrubou algo? Estava muito lento ao mexer? Este módulo usa aprendizado por reforço e auto calibração para atualizar os modelos do robô ao longo do tempo. As habilidades principais do robô foram inicialmente treinadas em enormes demonstrações humanas e tentativa e erro, mas você precisa estar continuamente ajustando-as. Se ele descobrir uma técnica de corte mais eficiente ou uma melhor pegada para a espátula, ele atualiza sua política para que o próximo jantar ocorra ainda mais suavemente. Este cérebro adaptativo permite que o humanoide se torne mais habilidoso com a experiência. Codec: Operadores em Ação Como a arquitetura do Codec une esses cérebros? Cada “cérebro” funciona como um módulo operador separado no sistema de IA do robô. A orquestração do Fabric do Codec fornece a cada operador seu próprio ambiente seguro e isolado. Isso significa que o módulo de visão, módulo de linguagem/lógica, módulo de planejamento etc., todos funcionam em isolamento, mas se comunicam através de interfaces definidas. Se um módulo falhar ou tiver erros, isso não derrubará todo o robô, os outros continuam funcionando com segurança. Este design modular também facilita a atualização ou troca de um cérebro sem afetar o restante, e adicionar novos operadores especializados conforme necessário. Essa abordagem de operador apoia diretamente a estrutura de múltiplos cérebros. Quando você solicita o jantar, o cérebro executivo do robô (Cérebro 1) pode ativar um operador “chef” dedicado a essa tarefa, enquanto outros operadores lidam com percepção e controle em paralelo. Cada operador tem acesso apenas aos recursos que precisa (por exemplo, o agente de receita pode ter acesso à internet para buscar instruções, enquanto o agente de controle apenas se comunica com o hardware), o que melhora a segurança. O design modular e isolado do Codec é a cola que une todas essas habilidades diversas trabalhando juntas, semelhante a microserviços em software, permitindo que o humanoide lide de forma confiável com tarefas complexas como cozinhar o jantar do zero. É por isso que $CODEC será a infraestrutura principal para Robótica.

Você verá modelos de fundação para Humanoides utilizando continuamente uma arquitetura estilo Sistema 2 + Sistema 1, que é na verdade inspirada na cognição humana. A maioria dos modelos de visão-linguagem-ação (VLA) hoje são construídos como sistemas multimodais centralizados que lidam com percepção, linguagem e ação dentro de uma única rede. A infraestrutura do Codec é perfeita para isso, pois trata cada Operador como um módulo isolado. Isso significa que você pode ativar múltiplos Operadores em paralelo, cada um executando seu próprio modelo ou tarefa, enquanto os mantém encapsulados e coordenados através da mesma arquitetura. Robôs e Humanoides, em geral, tipicamente têm múltiplos cérebros, onde um Operador pode lidar com o processamento de visão, outro com o equilíbrio, outro fazendo planejamento de alto nível, etc., que podem ser todos coordenados através do sistema do Codec. O modelo de fundação da Nvidia, Issac GR00T N1, utiliza a arquitetura de dois módulos Sistema 2 + Sistema 1. O Sistema 2 é um modelo de visão-linguagem (uma versão do PaLM ou similar, multimodal) que observa o mundo através das câmeras do robô e ouve instruções, então faz um planejamento de alto nível. O Sistema 1 é uma política de transformador de difusão que pega esse plano e o transforma em movimentos contínuos em tempo real. Você pode pensar no Sistema 2 como o cérebro deliberativo e no Sistema 1 como o controlador corporal instintivo. O Sistema 2 pode gerar algo como "mova-se para o copo vermelho, agarre-o, e então coloque-o na prateleira," e o Sistema 1 gerará as trajetórias detalhadas das articulações para as pernas e braços executarem cada passo suavemente. O Sistema 1 foi treinado com uma tonelada de dados de trajetória (incluindo demonstrações teleoperadas por humanos e dados simulados fisicamente) para dominar movimentos finos, enquanto o Sistema 2 foi construído em um transformador com pré-treinamento na internet (para compreensão semântica). Essa separação entre raciocínio e ação é muito poderosa para a NVIDIA. Isso significa que o GR00T pode lidar com tarefas de longo prazo que requerem planejamento (graças ao Sistema 2) e também reagir instantaneamente a perturbações (graças ao Sistema 1). Se um robô está carregando uma bandeja e alguém empurra a bandeja, o Sistema 1 pode corrigir o equilíbrio imediatamente, em vez de esperar que o mais lento Sistema 2 perceba. O GR00T N1 foi um dos primeiros modelos de fundação de robótica disponíveis publicamente, e rapidamente ganhou tração. Pronto para uso, ele demonstrou habilidade em muitas tarefas em simulação, conseguia agarrar e mover objetos com uma ou duas mãos, passar itens entre suas mãos e realizar tarefas de múltiplos passos sem qualquer programação específica para a tarefa. Como não estava vinculado a uma única encarnação, os desenvolvedores mostraram que ele funcionava em diferentes robôs com ajustes mínimos. Isso também é verdade para o Helix (o modelo de fundação da Figure), que utiliza esse tipo de arquitetura. O Helix permite que dois robôs ou múltiplas habilidades operem, o Codec poderia habilitar um cérebro multiagente executando vários Operadores que compartilham informações. Esse design de "pódio isolado" significa que cada componente pode ser especializado (assim como Sistema 1 vs Sistema 2) e até mesmo desenvolvido por diferentes equipes, ainda assim podem trabalhar juntos. É uma abordagem única no sentido de que o Codec está construindo a pilha de software profunda para suportar essa inteligência modular e distribuída, enquanto a maioria dos outros foca apenas no modelo de IA em si. O Codec também aproveita grandes modelos pré-treinados. Se você está construindo uma aplicação robótica sobre isso, pode conectar um modelo de fundação OpenVLA ou Pi Zero como parte do seu Operador. O Codec fornece os conectores, fácil acesso a feeds de câmera ou APIs de robô, para que você não precise escrever o código de baixo nível para obter imagens da câmera de um robô ou enviar comandos de velocidade para seus motores. Tudo isso é abstraído por trás de um SDK de alto nível. Uma das razões pelas quais estou tão otimista em relação ao Codec é exatamente o que descrevi acima. Eles não estão perseguindo narrativas, a arquitetura é construída para ser a cola entre modelos de fundação, e suporta sem atrito sistemas de múltiplos cérebros, o que é crítico para a complexidade humanoide. Como estamos tão no início dessa tendência, vale a pena estudar os designs dos líderes da indústria e entender por que eles funcionam. A robótica é difícil de entender, dadas as camadas entre hardware e software, mas uma vez que você aprende a dividir cada seção em partes, torna-se muito mais fácil de digerir. Pode parecer uma perda de tempo agora, mas este é o mesmo método que me deu uma vantagem durante a época da IA e por que eu estava à frente em tantos projetos. Torne-se disciplinado e aprenda quais componentes podem coexistir e quais componentes não escalam. Isso trará dividendos nos próximos meses. Deca Trillions ( $CODEC ) codificado.

7,55K

Top

Classificação

Favoritos

Tendências on-chain

Popular no X

Principais financiamentos atuais

Mais notável