Laissez-moi peindre le tableau. Disons que vous voulez qu'un Humanoïde prépare un délicieux dîner pendant que vous êtes assis sur le canapé à regarder Netflix. Comment cela fonctionnerait-il sur un plan technique puisque l'Humanoïde nécessite plusieurs cerveaux pour préparer votre dîner ? L'intelligence du robot n'est pas monolithique, mais une équipe de modules d'IA combinant une délibération lente avec des réflexes rapides (conception Système 2 + Système 1). Son modèle vision-langage-action (VLA) divise la cognition en un module de raisonnement et une politique de contrôle réactif. Alors que le robot fonctionne sur une architecture cognitive multi-cerveau, il activerait un opérateur "chef" dédié pour gérer votre demande, comme surveiller la cuisine avec ses caméras, rechercher une recette, puis diriger ses membres pour commencer à couper des légumes. Ces cerveaux peuvent être décomposés en les opérateurs suivants. Cerveau #1 : Pour cuisiner un délicieux dîner, vous avez besoin d'un planificateur exécutif. Il interprète votre commande ("préparer le dîner") pour déterminer l'objectif (faire des pâtes). En utilisant la compréhension du langage naturel, il décide quelles sous-tâches sont nécessaires (trouver les ingrédients, cuire les pâtes, mettre la table, etc.) et quels autres cerveaux devraient gérer chacune. Il coordonne le système multi-agent : activant des modules spécialisés pour la vision, la connaissance et le mouvement. Ce cerveau délibératif (système 2) prend des décisions de haut niveau, établit l'approche et attribue des responsabilités avant que tout mouvement physique ne commence. Cerveau #2 : Maintenant que vous avez la recette, vous aurez besoin d'yeux de robot et de conscience spatiale. Il traite les flux de caméra pour identifier les ingrédients, les outils et leurs emplacements dans la cuisine. En utilisant une vision par ordinateur avancée, il voit la planche à découper, les légumes dans le réfrigérateur, le couteau sur le comptoir, etc. Il construit une carte 3D de l'environnement et suit les objets pertinents (comme où se trouvent le sel ou les casseroles). Ce cerveau perceptuel (Système 2) fonctionne plus lentement que les réflexes, mais fournit un contexte de scène précis pour la planification. En reconnaissant toutes les pièces impliquées, il éduque le robot dans le monde réel. Cerveau #3 : Ce cerveau agit comme la base de connaissances et la mémoire du robot (Système 2). Il récupère et analyse les informations nécessaires pour la tâche, dans ce cas, une recette appropriée et des instructions de cuisson. Il pourrait interroger un livre de cuisine en ligne ou sa base de données interne pour une recette de pâtes, puis interpréter les étapes (faire bouillir de l'eau, hacher de l'ail, etc.). Il rappelle des faits sur la cuisine (comme où sont conservées les épices) et des expériences de cuisson passées. Essentiellement, il fournit une compréhension sémantique et des connaissances sur le monde. Puis il calcule des instructions abstraites (caraméliser les oignons) en paramètres concrets (température, timing) que le robot peut exécuter, s'assurant que le plan s'aligne avec vos préférences. Cerveau #4 : Avec l'objectif et l'environnement clarifiés, nous avons élaboré un plan de jeu détaillé. Il décompose l'objectif de haut niveau en actions ordonnées et étapes conditionnelles. Il planifie les tâches (parfois en parallèle, comme préchauffer le four tout en coupant des légumes) et fixe des jalons (eau bouillie, sauce prête). Il suit également les progrès et peut replanifier à la volée si quelque chose change (par exemple, un ingrédient est manquant). Il transmet ensuite cette séquence d'actions aux cerveaux de niveau mouvement pour exécution. Un autre cerveau Système 2. Cerveau #5 : Il est temps de passer de l'architecture Système 2 au Système 1, traduisant le plan en mouvements concrets du robot. Pour chaque action (comme "marcher jusqu'au réfrigérateur" ou "couper des carottes"), il génère des trajectoires applicables pour le corps et les membres du robot. Ce module gère la planification de chemin et la cinématique inverse, calculant les chemins et angles des articulations afin que le robot se déplace en douceur sans collisions. Il applique généralement des politiques motrices apprises (comme une politique de transformateur de diffusion) pour produire des mouvements fluides pour des tâches complexes. Si le Cerveau 4 dit de récupérer une casserole du réfrigérateur, le Cerveau 5 détermine comment amener le robot là-bas et comment saisir la casserole. Il coordonne plusieurs membres lorsque cela est nécessaire (utilisant deux mains pour soulever une casserole lourde par exemple). L'intention de haut niveau se transforme en une convergence de matériel et de logiciel en mouvement. Cerveau #6 : Une fois qu'un plan de mouvement est établi, il est temps d'exécuter. Ce cerveau de contrôle de bas niveau Système 1 entraîne les actionneurs du robot (moteurs et articulations). Il lit en continu les capteurs (angles des articulations, force, équilibre) et envoie des signaux de contrôle pour suivre la trajectoire. Utilisant des boucles de contrôle (contrôleurs PID, contrôle prédictif de modèle, etc.) pour maintenir la précision, si le robot commence à basculer ou qu'un couteau dévie de son cours, il corrige instantanément. Ce sont les réflexes et les compétences motrices fines opérant à des vitesses de millisecondes. Alors que le robot tranche une carotte, le Cerveau 6 module la force et ajuste l'angle de la lame pour obtenir des tranches uniformes sans glisser. C'est comme la "mémoire musculaire" subconsciente du système, gérant automatiquement les détails de bas niveau. Cerveau #7 : La dernière pièce se concentre sur l'amélioration continue. Pendant et après la préparation du dîner, il analyse les performances. A-t-il renversé quelque chose ? Était-il trop lent à remuer ? Ce module utilise l'apprentissage par renforcement et l'auto-calibration pour mettre à jour les modèles du robot au fil du temps. Les compétences de base du robot ont été initialement entraînées sur d'énormes démonstrations humaines et par essais et erreurs, mais vous devez les affiner en continu. S'il découvre une technique de découpe plus efficace ou une meilleure prise de spatule, il met à jour sa politique afin que le prochain dîner se déroule encore plus facilement. Ce cerveau adaptatif permet à l'humanoïde de devenir plus habile avec l'expérience. Codec : Opérateurs en Action Comment l'architecture de Codec relie-t-elle ces cerveaux ensemble ? Chaque "cerveau" fonctionne comme un module d'opérateur séparé dans le système d'IA du robot. L'orchestration de Fabric de Codec fournit à chaque opérateur son propre environnement sécurisé et isolé. Cela signifie que le module de vision, le module de langage/logique, le module de planification, etc., fonctionnent tous en isolation tout en communiquant par des interfaces définies. Si un module plante ou a des erreurs, cela ne fera pas tomber tout le robot, les autres continuent de fonctionner en toute sécurité. Ce design modulaire facilite également la mise à jour ou le remplacement d'un cerveau sans affecter le reste, et l'ajout de nouveaux opérateurs spécialisés au besoin. Cette approche d'opérateur soutient directement le cadre multi-cerveau. Lorsque vous demandez le dîner, le cerveau exécutif du robot (Cerveau 1) peut activer un opérateur "chef" dédié à cette tâche, tandis que d'autres opérateurs gèrent la perception et le contrôle en parallèle. Chaque opérateur n'a accès qu'aux ressources dont il a besoin (par exemple, l'agent de recette pourrait avoir accès à Internet pour récupérer des instructions, tandis que l'agent de contrôle n'interagit qu'avec le matériel), ce qui améliore la sécurité. Le design modulaire et isolé de Codec est le lien entre toutes ces compétences diverses travaillant ensemble, similaire aux microservices dans les logiciels, permettant à l'humanoïde de gérer de manière fiable des tâches complexes comme cuisiner un dîner à partir de zéro. C'est pourquoi $CODEC sera l'infrastructure principale pour la robotique.
Trissy
Trissy23 août, 18:30
Vous verrez des modèles de fondation pour les humanoïdes utilisant continuellement une architecture de style Système 2 + Système 1, qui est en réalité inspirée de la cognition humaine. La plupart des modèles vision-langage-action (VLA) d'aujourd'hui sont construits comme des systèmes multimodaux centralisés qui gèrent la perception, le langage et l'action au sein d'un seul réseau. L'infrastructure de Codec est parfaite pour cela, car elle traite chaque Opérateur comme un module isolé. Cela signifie que vous pouvez faire fonctionner plusieurs Opérateurs en parallèle, chacun exécutant son propre modèle ou tâche, tout en les maintenant encapsulés et coordonnés à travers la même architecture. Les robots et les humanoïdes en général ont typiquement plusieurs cerveaux, où un Opérateur peut gérer le traitement visuel, un autre gérer l'équilibre, un autre faire de la planification de haut niveau, etc., qui peuvent tous être coordonnés à travers le système de Codec. Le modèle de fondation d'Nvidia, Issac GR00T N1, utilise l'architecture à deux modules Système 2 + Système 1. Le Système 2 est un modèle vision-langage (une version de PaLM ou similaire, multimodal) qui observe le monde à travers les caméras du robot et écoute les instructions, puis élabore un plan de haut niveau. Le Système 1 est une politique de transformateur de diffusion qui prend ce plan et le transforme en mouvements continus en temps réel. Vous pouvez penser au Système 2 comme le cerveau délibératif et au Système 1 comme le contrôleur corporel instinctif. Le Système 2 pourrait produire quelque chose comme "déplacez-vous vers la tasse rouge, saisissez-la, puis placez-la sur l'étagère," et le Système 1 générera les trajectoires articulaires détaillées pour que les jambes et les bras exécutent chaque étape en douceur. Le Système 1 a été entraîné sur des tonnes de données de trajectoire (y compris des démonstrations téléopérées par des humains et des données simulées physiquement) pour maîtriser les mouvements fins, tandis que le Système 2 a été construit sur un transformateur avec pré-entraînement sur Internet (pour la compréhension sémantique). Cette séparation entre raisonnement et action est très puissante pour NVIDIA. Cela signifie que GR00T peut gérer des tâches à long terme qui nécessitent de la planification (grâce au Système 2) et aussi réagir instantanément aux perturbations (grâce au Système 1). Si un robot porte un plateau et que quelqu'un pousse le plateau, le Système 1 peut corriger l'équilibre immédiatement plutôt que d'attendre que le Système 2, plus lent, le remarque. GR00T N1 a été l'un des premiers modèles de fondation en robotique disponibles publiquement, et il a rapidement gagné en popularité. D'emblée, il a démontré des compétences dans de nombreuses tâches en simulation, il pouvait saisir et déplacer des objets avec une main ou deux, passer des objets entre ses mains, et effectuer des tâches en plusieurs étapes sans aucune programmation spécifique à la tâche. Comme il n'était pas lié à une seule incarnation, les développeurs ont montré qu'il fonctionnait sur différents robots avec des ajustements minimes. C'est également vrai pour Helix (le modèle de fondation de Figure) qui utilise ce type d'architecture. Helix permet à deux robots ou plusieurs compétences d'opérer, Codec pourrait permettre un cerveau multi-agent en exécutant plusieurs Opérateurs qui partagent des informations. Ce design "pod isolé" signifie que chaque composant peut être spécialisé (tout comme le Système 1 contre le Système 2) et même développé par différentes équipes, tout en pouvant travailler ensemble. C'est une approche unique dans le sens où Codec construit la pile logicielle profonde pour soutenir cette intelligence modulaire et distribuée, tandis que la plupart des autres se concentrent uniquement sur le modèle d'IA lui-même. Codec tire également parti de grands modèles pré-entraînés. Si vous construisez une application robotique dessus, vous pourriez intégrer un modèle de fondation OpenVLA ou Pi Zero comme partie de votre Opérateur. Codec fournit les connecteurs, un accès facile aux flux de caméra ou aux API de robot, donc vous n'avez pas à écrire le code de bas niveau pour obtenir des images de la caméra d'un robot ou pour envoyer des commandes de vitesse à ses moteurs. Tout est abstrait derrière un SDK de haut niveau. Une des raisons pour lesquelles je suis si optimiste sur Codec est exactement ce que j'ai décrit ci-dessus. Ils ne poursuivent pas des récits, l'architecture est construite pour être le lien entre les modèles de fondation, et elle soutient sans friction les systèmes multi-cerveaux, ce qui est critique pour la complexité humanoïde. Comme nous sommes encore au début de cette tendance, il vaut la peine d'étudier les conceptions des leaders de l'industrie et de comprendre pourquoi elles fonctionnent. La robotique est difficile à saisir compte tenu des couches entre le matériel et le logiciel, mais une fois que vous apprenez à décomposer chaque section pièce par pièce, cela devient beaucoup plus facile à digérer. Cela peut sembler une perte de temps maintenant, mais c'est la même méthode qui m'a donné une longueur d'avance pendant la saison de l'IA et pourquoi j'étais en avance sur tant de projets. Devenez discipliné et apprenez quels composants peuvent coexister et quels composants ne sont pas évolutifs. Cela rapportera des dividendes dans les mois à venir. Deca Trillions ( $CODEC ) codé.
7,55K