Déjame pintar el cuadro. Supongamos que quieres que un Humanoide cocine una deliciosa cena mientras tú te sientas en el sofá y miras Netflix. ¿Cómo funcionaría esto a nivel técnico, dado que el Humanoide requiere varios cerebros para preparar tu cena? La inteligencia del robot no es monolítica, sino un equipo de módulos de IA que combinan una deliberación lenta con reflejos rápidos (diseño de Sistema 2 + Sistema 1). Su modelo de visión-lenguaje-acción (VLA) divide la cognición en un módulo de razonamiento y una política de control reactivo. Como el robot opera con una arquitectura cognitiva de múltiples cerebros, activaría un operador “chef” dedicado para manejar tu solicitud, como inspeccionar la cocina con sus cámaras, buscar una receta y luego dirigir sus extremidades para comenzar a picar verduras. Estos cerebros se pueden desglosar en los siguientes operadores. Cerebro #1: Para cocinar una deliciosa cena, necesitas un planificador ejecutivo. Interpreta tu comando (“preparar la cena”) para determinar el objetivo (hacer pasta). Usando comprensión del lenguaje natural, decide qué subtareas son necesarias (encontrar ingredientes, cocinar pasta, poner la mesa, etc.) y qué otros cerebros deben manejar cada una. Coordina el sistema de múltiples agentes: activando módulos especializados para visión, conocimiento y movimiento. Este cerebro deliberativo (sistema 2) toma decisiones de alto nivel, establece el enfoque y asigna responsabilidades antes de que comiencen los movimientos físicos. Cerebro #2: Ahora que tienes la receta, necesitarás algunos ojos robóticos y conciencia espacial. Procesa las imágenes de las cámaras para identificar ingredientes, herramientas y sus ubicaciones en la cocina. Usando visión por computadora avanzada, ve la tabla de cortar, las verduras en la nevera, el cuchillo en la encimera, etc. Construye un mapa 3D del entorno y rastrea objetos relevantes (como dónde están la sal o las sartenes). Este cerebro perceptual (Sistema 2) funciona más lento que los reflejos, pero proporciona un contexto preciso de la escena para la planificación. Al reconocer todas las piezas involucradas, educa al robot en el mundo real. Cerebro #3: Este cerebro actúa como la base de conocimiento y memoria del robot (Sistema 2). Recupera y analiza la información necesaria para la tarea, en este caso, una receta adecuada e instrucciones de cocina. Podría consultar un libro de cocina en línea o su base de datos interna para una receta de pasta, luego interpretar los pasos (hervir agua, picar ajo, etc.). Recuerda hechos sobre la cocina (como dónde se guardan las especias) y experiencias pasadas de cocina. Esencialmente, proporciona comprensión semántica y conocimiento del mundo. Luego computa instrucciones abstractas (caramelizar las cebollas) en parámetros concretos (temperatura, tiempo) que el robot puede ejecutar, asegurando que el plan se alinee con tus preferencias. Cerebro #4: Con el objetivo y el entorno aclarados, hemos ideado un plan de juego detallado. Descompone el objetivo de alto nivel en acciones ordenadas y pasos condicionales. Programa tareas (a veces en paralelo, como precalentar el horno mientras pica verduras) y establece hitos (agua hervida, salsa lista). También rastrea el progreso y puede replantear sobre la marcha si algo cambia (digamos que falta un ingrediente). Luego entrega esta secuencia de acciones a los cerebros de nivel de movimiento para su ejecución. Otro cerebro del Sistema 2. Cerebro #5: Es hora de pasar de la arquitectura del Sistema 2 al Sistema 1, traduciendo el plan en movimientos concretos del robot. Para cada acción (como “caminar hacia la nevera” o “picar zanahorias”), genera trayectorias aplicables para el cuerpo y las extremidades del robot. Este módulo maneja la planificación de rutas y la cinemática inversa, calculando caminos y ángulos de las articulaciones para que el robot se mueva suavemente sin colisiones. Típicamente aplica políticas motoras aprendidas (como una política de transformador de difusión) para producir movimientos fluidos para tareas complejas. Si el Cerebro 4 dice que recupere una olla de la nevera, el Cerebro 5 determina cómo llevar al robot allí y cómo agarrar la olla. Donde coordina múltiples extremidades cuando es necesario (usando dos manos para levantar una olla pesada, por ejemplo). La intención de alto nivel se convierte en una convergencia de hardware y software en movimiento. Cerebro #6: Una vez que se establece un plan de movimiento, es hora de ejecutar. Este cerebro de control de bajo nivel del Sistema 1 impulsa los actuadores del robot (motores y articulaciones). Lee continuamente los sensores (ángulos de las articulaciones, fuerza, equilibrio) y envía señales de control para seguir la trayectoria. Usando bucles de control (controladores PID, control predictivo de modelos, etc.) para mantener la precisión, si el robot comienza a inclinarse o un cuchillo se desvía, corrige instantáneamente. Estos son los reflejos y habilidades motoras finas que operan a velocidades de milisegundos. Mientras el robot corta una zanahoria, el Cerebro 6 modula la fuerza y ajusta el ángulo de la cuchilla para obtener rebanadas uniformes sin resbalar. Es como la “memoria muscular” subconsciente del sistema, manejando automáticamente los detalles de bajo nivel. Cerebro #7: La pieza final se centra en la mejora continua. Durante y después de la preparación de la cena, analiza el rendimiento. ¿Derramó algo? ¿Fue demasiado lento al revolver? Este módulo utiliza aprendizaje por refuerzo y auto-calibración para actualizar los modelos del robot con el tiempo. Las habilidades básicas del robot se entrenaron inicialmente en demostraciones humanas masivas y prueba y error, pero necesitas estar afinándolas continuamente. Si descubre una técnica de picado más eficiente o un mejor agarre de espátula, actualiza su política para que la próxima cena sea aún más fluida. Este cerebro adaptativo permite que el humanoide se vuelva más hábil con la experiencia. Codec: Operadores en Acción ¿Cómo une la arquitectura de Codec estos cerebros? Cada “cerebro” funciona como un módulo de operador separado en el sistema de IA del robot. La orquestación de Fabric de Codec proporciona a cada operador su propio entorno seguro y aislado. Esto significa que el módulo de visión, el módulo de lenguaje/lógica, el módulo de planificación, etc., funcionan todos en aislamiento, pero se comunican a través de interfaces definidas. Si un módulo falla o tiene errores, no derribará todo el robot, los otros seguirán funcionando de manera segura. Este diseño modular también facilita la actualización o el intercambio de un cerebro sin afectar al resto, y la adición de nuevos operadores especializados según sea necesario. Este enfoque de operador apoya directamente el marco de múltiples cerebros. Cuando solicitas la cena, el cerebro ejecutivo del robot (Cerebro 1) puede activar un operador “chef” dedicado a esa tarea, mientras que otros operadores manejan la percepción y el control en paralelo. Cada operador solo tiene acceso a los recursos que necesita (por ejemplo, el agente de recetas podría tener acceso a Internet para obtener instrucciones, mientras que el agente de control solo se comunica con el hardware), lo que mejora la seguridad. El diseño modular y aislado de Codec es el pegamento que une todas estas diversas habilidades para trabajar juntas, similar a los microservicios en software, permitiendo que el humanoide maneje de manera confiable tareas complejas como cocinar la cena desde cero. Por eso $CODEC será la infraestructura principal para la Robótica.
Trissy
Trissy23 ago, 18:30
Verás modelos de base para humanoides utilizando continuamente una arquitectura de estilo Sistema 2 + Sistema 1, que en realidad está inspirada en la cognición humana. La mayoría de los modelos de visión-lenguaje-acción (VLA) hoy en día se construyen como sistemas multimodales centralizados que manejan la percepción, el lenguaje y la acción dentro de una sola red. La infraestructura de Codec es perfecta para esto, ya que trata cada Operador como un módulo aislado. Esto significa que puedes activar múltiples Operadores en paralelo, cada uno ejecutando su propio modelo o tarea, mientras los mantienes encapsulados y coordinados a través de la misma arquitectura. Los robots y humanoides en general típicamente tienen múltiples cerebros, donde un Operador podría manejar el procesamiento de visión, otro manejar el equilibrio, otro hacer planificación de alto nivel, etc., que pueden ser coordinados a través del sistema de Codec. El modelo de base de Nvidia, Issac GR00T N1, utiliza la arquitectura de dos módulos Sistema 2 + Sistema 1. El Sistema 2 es un modelo de visión-lenguaje (una versión de PaLM o similar, multimodal) que observa el mundo a través de las cámaras del robot y escucha instrucciones, luego hace un plan de alto nivel. El Sistema 1 es una política de transformador de difusión que toma ese plan y lo convierte en movimientos continuos en tiempo real. Puedes pensar en el Sistema 2 como el cerebro deliberativo y en el Sistema 1 como el controlador corporal instintivo. El Sistema 2 podría generar algo como "moverse hacia la taza roja, agarrarla y luego colocarla en la estantería", y el Sistema 1 generará las trayectorias articulares detalladas para que las piernas y los brazos ejecuten cada paso de manera fluida. El Sistema 1 fue entrenado con toneladas de datos de trayectorias (incluyendo demostraciones teleoperadas por humanos y datos simulados físicamente) para dominar los movimientos finos, mientras que el Sistema 2 se construyó sobre un transformador con preentrenamiento en internet (para comprensión semántica). Esta separación de razonamiento frente a acción es muy poderosa para NVIDIA. Significa que GR00T puede manejar tareas de largo horizonte que requieren planificación (gracias al Sistema 2) y también reaccionar instantáneamente a perturbaciones (gracias al Sistema 1). Si un robot está llevando una bandeja y alguien empuja la bandeja, el Sistema 1 puede corregir el equilibrio de inmediato en lugar de esperar a que el más lento Sistema 2 lo note. GR00T N1 fue uno de los primeros modelos de base de robótica disponibles públicamente, y rápidamente ganó tracción. De forma predeterminada, demostró habilidad en muchas tareas en simulación, podía agarrar y mover objetos con una mano o dos, pasar artículos entre sus manos y realizar tareas de múltiples pasos sin ninguna programación específica para la tarea. Debido a que no estaba atado a una única encarnación, los desarrolladores mostraron que funcionaba en diferentes robots con ajustes mínimos. Esto también es cierto para Helix (el modelo de base de Figure) que utiliza este tipo de arquitectura. Helix permite que dos robots o múltiples habilidades operen, Codec podría habilitar un cerebro multiagente ejecutando varios Operadores que comparten información. Este diseño de "cápsula aislada" significa que cada componente puede ser especializado (al igual que el Sistema 1 frente al Sistema 2) e incluso desarrollado por diferentes equipos, pero pueden trabajar juntos. Es un enfoque único en el sentido de que Codec está construyendo la pila de software profunda para soportar esta inteligencia modular y distribuida, mientras que la mayoría de los demás solo se centran en el modelo de IA en sí. Codec también aprovecha grandes modelos preentrenados. Si estás construyendo una aplicación robótica sobre ello, podrías conectar un modelo de base OpenVLA o Pi Zero como parte de tu Operador. Codec proporciona los conectores, acceso fácil a las transmisiones de cámara o APIs de robots, por lo que no tienes que escribir el código de bajo nivel para obtener imágenes de la cámara de un robot o enviar comandos de velocidad a sus motores. Todo está abstraído detrás de un SDK de alto nivel. Una de las razones por las que estoy tan optimista sobre Codec es exactamente lo que he descrito anteriormente. No están persiguiendo narrativas, la arquitectura está construida para ser el pegamento entre los modelos de base, y apoya sin fricciones sistemas de múltiples cerebros, lo cual es crítico para la complejidad humanoide. Dado que estamos tan temprano en esta tendencia, vale la pena estudiar los diseños de los líderes de la industria y entender por qué funcionan. La robótica es difícil de comprender dado las capas entre hardware y software, pero una vez que aprendes a descomponer cada sección pieza por pieza, se vuelve mucho más fácil de digerir. Puede parecer una pérdida de tiempo ahora, pero este es el mismo método que me dio una ventaja durante la temporada de IA y por qué estuve temprano en tantos proyectos. Sé disciplinado y aprende qué componentes pueden coexistir y cuáles no escalan. Te dará dividendos en los próximos meses. Deca Trillions ( $CODEC ) codificado.
7,51K