Permítanme pintar el cuadro. Digamos que quieres que un humanoide cocine una deliciosa cena mientras te sientas en el sofá y ves Netflix. ¿Cómo funcionaría esto a nivel técnico ya que el Humanoide requiere varios cerebros para preparar tu cena? La inteligencia del robot no es monolítica, sino un equipo de módulos de IA que combinan una deliberación lenta con reflejos rápidos (diseño del Sistema 2 + Sistema 1). Su modelo de visión-lenguaje-acción (VLA) divide la cognición en un módulo de razonamiento y una política de control reactivo. Como el robot se ejecuta en una arquitectura cognitiva de múltiples cerebros, pondría en marcha un operador de "chef" dedicado para manejar su solicitud, como inspeccionar la cocina con sus cámaras, buscar una receta y luego dirigir sus extremidades para comenzar a picar verduras. Estos cerebros se pueden dividir en los siguientes operadores. Cerebro #1: Para cocinar una cena deliciosa, necesita un planificador ejecutivo. Interpreta su comando ("preparar la cena") para determinar el objetivo (hacer pasta). Usando la comprensión del lenguaje natural, decide qué subtareas se necesitan (encontrar ingredientes, cocinar pasta, poner la mesa, etc.) y qué otros cerebros deben manejar cada una. Coordina el sistema multiagente: activando módulos especializados para la visión, el conocimiento y el movimiento. Este cerebro deliberativo (sistema 2) toma decisiones de alto nivel, establece el enfoque y asigna responsabilidades antes de que comiencen los movimientos físicos. Cerebro #2: Ahora que tienes la receta, necesitarás algunos ojos de robot y conciencia espacial. Procesa las imágenes de la cámara para identificar ingredientes, herramientas y sus ubicaciones en la cocina. Usando visión artificial avanzada, ve la tabla de cortar, las verduras en el refrigerador, el cuchillo en el mostrador, etc. Construye un mapa 3D del entorno y rastrea objetos relevantes (como dónde están la sal o las sartenes). Este cerebro perceptivo (Sistema 2) funciona más lento que los reflejos, pero proporciona un contexto de escena preciso para la planificación. Al reconocer todas las piezas involucradas, educa al robot en el mundo real. Cerebro #3: Este cerebro actúa como la base de conocimiento y la memoria del robot (Sistema 2). Recupera y analiza la información necesaria para la tarea, en este caso, una receta adecuada e instrucciones de cocción. Puede consultar un libro de cocina en línea o su base de datos interna para obtener una receta de pasta, luego interpretar los pasos (hervir agua, picar ajo, etc.). Recuerda datos sobre la cocina (como dónde se guardan las especias) y experiencias culinarias pasadas. Esencialmente, proporcionar comprensión semántica y conocimiento del mundo. Luego calcula instrucciones abstractas (caramelizar las cebollas) en parámetros concretos (temperatura, tiempo) que el robot puede ejecutar, asegurando que el plan se alinee con sus preferencias. Cerebro #4: Con el objetivo y el entorno aclarados, hemos ideado un plan de juego detallado. Divide el objetivo de alto nivel en acciones ordenadas y pasos condicionales. Programa tareas (a veces en paralelo, como precalentar el horno mientras se cortan verduras) y establece hitos (agua hervida, salsa lista). También realiza un seguimiento del progreso y puede volver a planificar sobre la marcha si algo cambia (digamos que falta un ingrediente). Luego entrega esta secuencia de acción a los cerebros a nivel de movimiento para su ejecución. Otro cerebro del Sistema 2. Cerebro #5: Es hora de pasar de la arquitectura del Sistema 2 al Sistema 1, traduciendo el plan en movimientos concretos del robot. Para cada acción (como "caminar hacia el refrigerador" o "picar zanahorias"), genera trayectorias aplicables para el cuerpo y las extremidades del robot. Este módulo maneja la planificación de rutas y la cinemática inversa, calculando las trayectorias y ángulos de las articulaciones para que el robot se mueva suavemente sin colisiones. Por lo general, aplica políticas de motor aprendidas (como una política de transformador de difusión) para producir movimientos fluidos para tareas complejas. Si Brain 4 dice que recupere una olla del refrigerador, Brain 5 descubre cómo llevar al robot allí y cómo agarrar la olla. Donde coordina múltiples extremidades cuando es necesario (usando las dos manos para levantar una olla pesada, por ejemplo). La intención de alto nivel se convierte en una convergencia de hardware y software que se mueven en movimiento Cerebro #6: Una vez que se establece un plan de movimiento, es hora de ejecutarlo. Este cerebro de control del Sistema 1 de bajo nivel acciona los actuadores del robot (motores y articulaciones). Lee continuamente los sensores (ángulos articulares, fuerza, equilibrio) y envía señales de control para seguir la trayectoria. Usando bucles de control (controladores PID, control predictivo de modelos, etc.) para mantener la precisión, si el robot comienza a inclinarse o un cuchillo se desvía de su curso, se corrige instantáneamente. Estos son los reflejos y las habilidades motoras finas que operan a velocidades de milisegundos. A medida que el robot corta una zanahoria, Brain 6 modula la fuerza y ajusta el ángulo de la cuchilla para obtener cortes uniformes sin resbalar. Es como la "memoria muscular" subconsciente del sistema, que maneja detalles de bajo nivel automáticamente. Cerebro #7: La pieza final se centra en la mejora continua. Durante y después de la preparación de la cena, analiza el rendimiento. ¿Derramó algo? ¿Fue demasiado lento para revolver? Este módulo utiliza el aprendizaje por refuerzo y la autocalibración para actualizar los modelos del robot a lo largo del tiempo. Las habilidades básicas del robot se entrenaron inicialmente en demostraciones humanas masivas y prueba y error, pero debe ajustarlas continuamente. Si descubre una técnica de corte en cubitos más eficiente o un mejor agarre de espátula, actualiza su política para que la próxima cena sea aún más suave. Este cerebro adaptativo permite que el humanoide se vuelva más hábil con la experiencia. Códec: Operadores en acción ¿Cómo une la arquitectura de Codec estos cerebros? Cada "cerebro" se ejecuta como un módulo de operador separado en el sistema de IA del robot. La orquestación de Fabric de Codec proporciona a cada operador su propio entorno seguro y aislado. Es decir, el módulo de visión, el módulo de lenguaje/lógica, el módulo de planificación, etc., se ejecutan de forma aislada pero se comunican a través de interfaces definidas. Si un módulo falla o tiene errores, no derribará todo el robot, los demás seguirán funcionando de manera segura. Este diseño modular también facilita la actualización o el intercambio de un cerebro sin afectar al resto, y la adición de nuevos operadores especializados según sea necesario. Este enfoque de operador apoya directamente el marco de múltiples cerebros. Cuando solicita la cena, el cerebro ejecutivo del robot (Cerebro 1) puede hacer girar a un operador de "chef" dedicado a esa tarea, mientras que otros operadores manejan la percepción y el control en paralelo. Cada operador solo tiene acceso a los recursos que necesita (por ejemplo, el agente de recetas puede tener acceso a Internet para obtener instrucciones, mientras que el agente de control solo interactúa con el hardware), lo que mejora la seguridad. El diseño modular y aislado de Codec es el pegamento de todas estas diversas habilidades que trabajan juntas, similar a los microservicios en el software, lo que permite al humanoide manejar de manera confiable tareas complejas como cocinar la cena desde cero. Es por eso que $CODEC será la infraestructura principal para la robótica.
Trissy
Trissy23 ago, 18:30
Verá modelos básicos para humanoides que utilizan continuamente una arquitectura de estilo Sistema 2 + Sistema 1 que en realidad está inspirada en la cognición humana. La mayoría de los modelos de visión-lenguaje-acción (VLA) actuales se construyen como sistemas multimodales centralizados que manejan la percepción, el lenguaje y la acción dentro de una sola red. La infraestructura de Codec es perfecta para esto, ya que trata a cada operador como un módulo aislado. Lo que significa que puede poner en marcha varios operadores en paralelo, cada uno ejecutando su propio modelo o tarea, mientras los mantiene encapsulados y coordinados a través de la misma arquitectura. Los robots y los humanoides en general suelen tener múltiples cerebros, donde un operador puede manejar el procesamiento de la visión, otro manejar el equilibrio, otro hacer la planificación de alto nivel, etc., que pueden coordinarse a través del sistema de Codec. El modelo básico de Nvidia, Issac GR00T N1, utiliza la arquitectura de dos módulos System 2 + System 1. El Sistema 2 es un modelo de lenguaje de visión (una versión de PaLM o similar, multimodal) que observa el mundo a través de las cámaras del robot y escucha instrucciones, luego hace un plan de alto nivel. El Sistema 1 es una política de transformadores de difusión que toma ese plan y lo convierte en movimientos continuos en tiempo real. Puedes pensar en el Sistema 2 como el cerebro deliberativo y el Sistema 1 como el controlador instintivo del cuerpo. El Sistema 2 podría generar algo como "muévase a la taza roja, agárrela y luego colóquela en el estante", y el Sistema 1 generará las trayectorias articulares detalladas para que las piernas y los brazos ejecuten cada paso sin problemas. El Sistema 1 se entrenó con toneladas de datos de trayectoria (incluidas demostraciones teleoperadas humanas y datos simulados de física) para dominar movimientos finos, mientras que el Sistema 2 se construyó en un transformador con preentrenamiento de Internet (para comprensión semántica). Esta separación de razonamiento versus actuación es muy poderosa para NVIDIA. Significa que GR00T puede manejar tareas de largo horizonte que requieren planificación (gracias al Sistema 2) y también reaccionar instantáneamente a las perturbaciones (gracias al Sistema 1). Si un robot lleva una bandeja y alguien empuja la bandeja, el Sistema 1 puede corregir el equilibrio inmediatamente en lugar de esperar a que el Sistema 2 más lento se dé cuenta. GR00T N1 fue uno de los primeros modelos de bases robóticas disponibles abiertamente, y rápidamente ganó terreno. Fuera de la caja, demostró habilidad en muchas tareas en simulación, podía agarrar y mover objetos con una mano o dos, elementos de mano entre sus manos y realizar tareas de varios pasos sin ninguna programación específica de tareas. Debido a que no estaba vinculado a una sola realización, los desarrolladores lo mostraron funcionando en diferentes robots con ajustes mínimos. Esto también es cierto para Helix (modelo de fundación de Figure) que utiliza este tipo de arquitectura. Helix permite que operen dos robots o múltiples habilidades, Codec podría habilitar un cerebro multiagente al ejecutar varios operadores que comparten información. Este diseño de "cápsula aislada" significa que cada componente puede ser especializado (al igual que el Sistema 1 frente al Sistema 2) e incluso desarrollado por diferentes equipos, pero pueden trabajar juntos. Es un enfoque único en el sentido de que Codec está construyendo la pila de software profunda para admitir esta inteligencia modular y distribuida, mientras que la mayoría de los demás solo se centran en el modelo de IA en sí. Codec también aprovecha grandes modelos preentrenados. Si está creando una aplicación de robot en él, puede conectar un modelo de base OpenVLA o Pi Zero como parte de su operador. El códec proporciona los conectores, fácil acceso a las fuentes de la cámara o las API del robot, por lo que no tiene que escribir el código de bajo nivel para obtener imágenes de la cámara de un robot o para enviar comandos de velocidad a sus motores. Todo está abstraído detrás de un SDK de alto nivel. Una de las razones por las que soy tan optimista sobre Codec es exactamente lo que describí anteriormente. No persiguen narrativas, la arquitectura está construida para ser el pegamento entre los modelos de base y admite sin fricciones sistemas multicerebrales, lo cual es fundamental para la complejidad humanoide. Debido a que estamos tan temprano en esta tendencia, vale la pena estudiar los diseños de los líderes de la industria y comprender por qué funcionan. La robótica es difícil de comprender dadas las capas de hardware y software, pero una vez que aprendes a desglosar cada sección pieza por pieza, se vuelve mucho más fácil de digerir. Puede parecer una pérdida de tiempo ahora, pero este es el mismo método que me dio una ventaja durante AI szn y por qué fui temprano en tantos proyectos. Vuélvete disciplinado y aprende qué componentes pueden coexistir y qué componentes no escalan. Pagará dividendos en los próximos meses. Deca Trillions ( $CODEC ) codificado.
7.54K