Verás modelos de base para humanoides utilizando continuamente una arquitectura de estilo Sistema 2 + Sistema 1, que en realidad está inspirada en la cognición humana. La mayoría de los modelos de visión-lenguaje-acción (VLA) hoy en día se construyen como sistemas multimodales centralizados que manejan la percepción, el lenguaje y la acción dentro de una sola red. La infraestructura de Codec es perfecta para esto, ya que trata cada Operador como un módulo aislado. Esto significa que puedes activar múltiples Operadores en paralelo, cada uno ejecutando su propio modelo o tarea, mientras los mantienes encapsulados y coordinados a través de la misma arquitectura. Los robots y humanoides en general típicamente tienen múltiples cerebros, donde un Operador podría manejar el procesamiento de visión, otro manejar el equilibrio, otro hacer planificación de alto nivel, etc., que pueden ser coordinados a través del sistema de Codec. El modelo de base de Nvidia, Issac GR00T N1, utiliza la arquitectura de dos módulos Sistema 2 + Sistema 1. El Sistema 2 es un modelo de visión-lenguaje (una versión de PaLM o similar, multimodal) que observa el mundo a través de las cámaras del robot y escucha instrucciones, luego hace un plan de alto nivel. El Sistema 1 es una política de transformador de difusión que toma ese plan y lo convierte en movimientos continuos en tiempo real. Puedes pensar en el Sistema 2 como el cerebro deliberativo y en el Sistema 1 como el controlador corporal instintivo. El Sistema 2 podría generar algo como "moverse hacia la taza roja, agarrarla y luego colocarla en la estantería", y el Sistema 1 generará las trayectorias articulares detalladas para que las piernas y los brazos ejecuten cada paso de manera fluida. El Sistema 1 fue entrenado con toneladas de datos de trayectorias (incluyendo demostraciones teleoperadas por humanos y datos simulados físicamente) para dominar los movimientos finos, mientras que el Sistema 2 se construyó sobre un transformador con preentrenamiento en internet (para comprensión semántica). Esta separación de razonamiento frente a acción es muy poderosa para NVIDIA. Significa que GR00T puede manejar tareas de largo horizonte que requieren planificación (gracias al Sistema 2) y también reaccionar instantáneamente a perturbaciones (gracias al Sistema 1). Si un robot está llevando una bandeja y alguien empuja la bandeja, el Sistema 1 puede corregir el equilibrio de inmediato en lugar de esperar a que el más lento Sistema 2 lo note. GR00T N1 fue uno de los primeros modelos de base de robótica disponibles públicamente, y rápidamente ganó tracción. De forma predeterminada, demostró habilidad en muchas tareas en simulación, podía agarrar y mover objetos con una mano o dos, pasar artículos entre sus manos y realizar tareas de múltiples pasos sin ninguna programación específica para la tarea. Debido a que no estaba atado a una única encarnación, los desarrolladores mostraron que funcionaba en diferentes robots con ajustes mínimos. Esto también es cierto para Helix (el modelo de base de Figure) que utiliza este tipo de arquitectura. Helix permite que dos robots o múltiples habilidades operen, Codec podría habilitar un cerebro multiagente ejecutando varios Operadores que comparten información. Este diseño de "cápsula aislada" significa que cada componente puede ser especializado (al igual que el Sistema 1 frente al Sistema 2) e incluso desarrollado por diferentes equipos, pero pueden trabajar juntos. Es un enfoque único en el sentido de que Codec está construyendo la pila de software profunda para soportar esta inteligencia modular y distribuida, mientras que la mayoría de los demás solo se centran en el modelo de IA en sí. Codec también aprovecha grandes modelos preentrenados. Si estás construyendo una aplicación robótica sobre ello, podrías conectar un modelo de base OpenVLA o Pi Zero como parte de tu Operador. Codec proporciona los conectores, acceso fácil a las transmisiones de cámara o APIs de robots, por lo que no tienes que escribir el código de bajo nivel para obtener imágenes de la cámara de un robot o enviar comandos de velocidad a sus motores. Todo está abstraído detrás de un SDK de alto nivel. Una de las razones por las que estoy tan optimista sobre Codec es exactamente lo que he descrito anteriormente. No están persiguiendo narrativas, la arquitectura está construida para ser el pegamento entre los modelos de base, y apoya sin fricciones sistemas de múltiples cerebros, lo cual es crítico para la complejidad humanoide. Dado que estamos tan temprano en esta tendencia, vale la pena estudiar los diseños de los líderes de la industria y entender por qué funcionan. La robótica es difícil de comprender dado las capas entre hardware y software, pero una vez que aprendes a descomponer cada sección pieza por pieza, se vuelve mucho más fácil de digerir. Puede parecer una pérdida de tiempo ahora, pero este es el mismo método que me dio una ventaja durante la temporada de IA y por qué estuve temprano en tantos proyectos. Sé disciplinado y aprende qué componentes pueden coexistir y cuáles no escalan. Te dará dividendos en los próximos meses. Deca Trillions ( $CODEC ) codificado.
9,67K