Laat me het plaatje schetsen. Stel dat je een Humanoïde wilt die een heerlijke maaltijd kookt terwijl jij op de bank zit en Netflix kijkt. Hoe zou dit technisch werken, aangezien de Humanoïde verschillende hersenen nodig heeft om jouw diner te maken? De intelligentie van de robot is niet monolithisch, maar een team van AI-modules die langzame overpeinzing combineren met snelle reflexen (System 2 + System 1 ontwerp). Het visie-taal-actie (VLA) model splitst cognitie in een redeneermodule en een reactief controlebeleid. Terwijl de robot draait op een multi-hersenen cognitieve architectuur, zou het een speciale “chef” operator opstarten om jouw verzoek te verwerken, zoals het verkennen van de keuken met zijn camera's, het opzoeken van een recept en vervolgens zijn ledematen aansturen om groenten te gaan snijden. Deze hersenen kunnen worden onderverdeeld in de volgende operators. Hersenen #1: Om een heerlijke maaltijd te koken, heb je een uitvoerende planner nodig. Het interpreteert jouw commando (“bereid diner voor”) om het doel te bepalen (maak pasta). Met behulp van natuurlijke taalbegrip beslist het welke subtaken nodig zijn (ingrediënten vinden, pasta koken, tafel dekken, enz.) en welke andere hersenen elke taak moeten afhandelen. Het coördineert het multi-agentensysteem: het activeert gespecialiseerde modules voor visie, kennis en beweging. Deze deliberatieve hersenen (system 2) nemen beslissingen op hoog niveau, leggen de aanpak vast en wijzen verantwoordelijkheden toe voordat er fysieke bewegingen beginnen. Hersenen #2: Nu je het recept hebt, heb je robotogen en ruimtelijk bewustzijn nodig. Het verwerkt camerabeelden om ingrediënten, gereedschappen en hun locaties in de keuken te identificeren. Met behulp van geavanceerde computer vision ziet het de snijplank, de groenten in de koelkast, het mes op het aanrecht, enz. Het bouwt een 3D-kaart van de omgeving en volgt relevante objecten (zoals waar het zout of de pannen zijn). Deze perceptuele hersenen (System 2) werken langzamer dan reflexen, maar bieden nauwkeurige context voor planning. Door alle betrokken stukken te herkennen, onderwijst het de robot in de echte wereld. Hersenen #3: Deze hersenen fungeren als de kennisbasis en het geheugen van de robot (System 2). Het haalt en analyseert informatie die nodig is voor de taak, in dit geval een geschikt recept en kookinstructies. Het kan een online kookboek raadplegen of zijn interne database voor een pastarecept, en vervolgens de stappen interpreteren (kook water, snijd knoflook, enz.). Het herinnert feiten over de keuken (zoals waar de specerijen worden bewaard) en eerdere kookervaringen. Het biedt in wezen semantisch begrip en wereldkennis. Vervolgens berekent het abstracte instructies (karameliseer de uien) in concrete parameters (temperatuur, timing) die de robot kan uitvoeren, zodat het plan aansluit bij jouw voorkeuren. Hersenen #4: Met het doel en de omgeving verduidelijkt, hebben we een gedetailleerd actieplan opgesteld. Het breekt het hoog niveau doel op in geordende acties en voorwaardelijke stappen. Het plant taken (soms parallel, zoals de oven voorverwarmen terwijl de groenten worden gesneden) en stelt mijlpalen in (water gekookt, saus klaar). Het volgt ook de voortgang en kan on-the-fly opnieuw plannen als er iets verandert (bijvoorbeeld als een ingrediënt ontbreekt). Het geeft deze actiesequentie vervolgens door aan de bewegingsniveau hersenen voor uitvoering. Nog een System 2 hersenen. Hersenen #5: Tijd om over te schakelen van de System 2-architectuur naar System 1, waarbij het plan wordt vertaald in concrete robotbewegingen. Voor elke actie (zoals “loop naar de koelkast” of “snijd wortels”) genereert het toepasbare trajecten voor het lichaam en de ledematen van de robot. Deze module behandelt padplanning en inverse kinematica, berekent gewrichtspaden en hoeken zodat de robot soepel beweegt zonder botsingen. Het past doorgaans geleerde motorische beleidslijnen toe (zoals een diffusietransformerbeleid) om vloeiende bewegingen voor complexe taken te produceren. Als Hersenen 4 zegt dat er een pan uit de koelkast moet worden gehaald, berekent Hersenen 5 hoe de robot daar moet komen en hoe de pan moet worden vastgegrepen. Waar het meerdere ledematen coördineert wanneer dat nodig is (bijvoorbeeld met twee handen een zware pan optillen). Hoog niveau intentie verandert in een samensmelting van hardware en software die in beweging is. Hersenen #6: Zodra een bewegingsplan is vastgesteld, is het tijd om uit te voeren. Deze laag-niveau System 1 controle hersenen stuurt de actuatoren van de robot (motoren en gewrichten). Het leest continu sensoren (gewrichtshoeken, kracht, balans) en stuurt controlesignalen om het pad te volgen. Met behulp van controle-lussen (PID-regelaars, modelvoorspellende controle, enz.) om precisie te behouden, als de robot begint te kantelen of een mes van koers raakt, corrigeert het onmiddellijk. Dit zijn de reflexen en fijne motoriek die op milliseconde-snelheden werken. Terwijl de robot een wortel snijdt, moduleert Hersenen 6 de kracht en past de hoek van het mes aan om uniforme plakken te krijgen zonder te slippen. Het is als de onderbewuste “spierherinnering” van het systeem, dat automatisch de laag-niveau details afhandelt. Hersenen #7: Het laatste stuk is gericht op continue verbetering. Tijdens en na de voorbereiding van het diner analyseert het de prestaties. Heeft het iets gemorst? Was het te langzaam met roeren? Deze module gebruikt versterkingsleren en zelfkalibratie om de modellen van de robot in de loop van de tijd bij te werken. De kernvaardigheden van de robot zijn aanvankelijk getraind op enorme menselijke demonstraties en trial-and-error, maar je moet ze continu verfijnen. Als het een efficiëntere snijtechniek of een betere grip op de spatel ontdekt, werkt het zijn beleid bij zodat het volgende diner nog soepeler verloopt. Deze adaptieve hersenen stellen de humanoïde in staat om vaardiger te worden met ervaring. Codec: Operators in Actie Hoe verbindt de architectuur van Codec deze hersenen? Elke “hersenen” draait als een aparte Operator-module in het AI-systeem van de robot. De Fabric-orchestratie van Codec biedt elke operator zijn eigen veilige, afgeschermde omgeving. Dit betekent dat de visiemodule, taal/logica-module, planningsmodule, enz., allemaal in isolatie draaien maar communiceren via gedefinieerde interfaces. Als één module crasht of fouten heeft, brengt het de hele robot niet naar beneden, de anderen blijven veilig draaien. Dit modulaire ontwerp maakt het ook gemakkelijk om één hersenen bij te werken of te vervangen zonder de rest te beïnvloeden, en om nieuwe gespecialiseerde operators toe te voegen indien nodig. Deze operatorbenadering ondersteunt rechtstreeks het multi-hersenen kader. Wanneer je om diner vraagt, kan de uitvoerende hersenen van de robot (Hersenen 1) een “chef” operator opstarten die aan die taak is gewijd, terwijl andere operators perceptie en controle parallel afhandelen. Elke operator heeft alleen toegang tot de middelen die hij nodig heeft (bijvoorbeeld de receptagent heeft mogelijk internettoegang om instructies op te halen, terwijl de controle-agent alleen met hardware communiceert), wat de veiligheid verbetert. Het modulaire, afgeschermde ontwerp van Codec is de lijm voor al deze diverse vaardigheden die samenwerken, vergelijkbaar met microservices in software, waardoor de humanoïde betrouwbaar complexe taken zoals het koken van een diner vanaf nul kan afhandelen. Dit is waarom $CODEC de primaire infrastructuur voor Robotica zal zijn.
Trissy
Trissy23 aug, 18:30
Je zult foundationmodellen voor Humanoïden zien die voortdurend een System 2 + System 1-architectuur gebruiken, die eigenlijk geïnspireerd is op menselijke cognitie. De meeste vision-language-action (VLA) modellen van vandaag zijn gebouwd als gecentraliseerde multimodale systemen die perceptie, taal en actie binnen één netwerk afhandelen. De infrastructuur van Codec is perfect hiervoor, omdat het elke Operator behandelt als een sandboxed module. Dit betekent dat je meerdere Operators parallel kunt opstarten, elk met zijn eigen model of taak, terwijl ze ingekapseld en gecoördineerd blijven via dezelfde architectuur. Robots en Humanoïden in het algemeen hebben meestal meerdere hersenen, waarbij één Operator de visuele verwerking kan afhandelen, een andere het evenwicht, weer een andere de hoge niveau planning, enzovoort, die allemaal gecoördineerd kunnen worden via het systeem van Codec. Nvidia’s foundation model Issac GR00T N1 gebruikt de twee module System 2 + System 1-architectuur. System 2 is een vision-language model (een versie van PaLM of vergelijkbaar, multimodaal) dat de wereld observeert via de camera's van de robot en naar instructies luistert, en vervolgens een hoog niveau plan maakt. System 1 is een diffusietransformerbeleid dat dat plan neemt en het omzet in continue bewegingen in real-time. Je kunt System 2 beschouwen als de deliberatieve hersenen en System 1 als de instinctieve lichaamscontroller. System 2 kan iets uitgeven als "beweeg naar de rode beker, pak het, en plaats het dan op de plank," en System 1 genereert de gedetailleerde gewrichtstrajecten voor de benen en armen om elke stap soepel uit te voeren. System 1 is getraind op een enorme hoeveelheid trajectgegevens (inclusief menselijke teleoperated demo's en fysiek gesimuleerde gegevens) om fijne bewegingen te beheersen, terwijl System 2 is gebouwd op een transformer met internetvoortraining (voor semantisch begrip). Deze scheiding van redeneren versus handelen is zeer krachtig voor NVIDIA. Het betekent dat GR00T lange termijn taken kan afhandelen die planning vereisen (dankzij System 2) en ook onmiddellijk kan reageren op verstoringen (dankzij System 1). Als een robot een dienblad draagt en iemand het dienblad duwt, kan System 1 het evenwicht onmiddellijk corrigeren in plaats van te wachten tot het langzamere System 2 het opmerkt. GR00T N1 was een van de eerste openbaar beschikbare robotics foundation modellen, en het kreeg snel tractie. Uit de doos toonde het vaardigheid in veel taken in simulatie, het kon objecten met één hand of twee vastpakken en verplaatsen, items tussen zijn handen doorgeven, en multi-step taken uitvoeren zonder enige taak specifieke programmering. Omdat het niet aan een enkele belichaming was gebonden, toonden ontwikkelaars het werkend op verschillende robots met minimale aanpassingen. Dit geldt ook voor Helix (het foundation model van Figure) dat dit type architectuur gebruikt. Helix staat twee robots of meerdere vaardigheden toe om te opereren, Codec zou een multi-agent brein kunnen mogelijk maken door verschillende Operators te laten draaien die informatie delen. Dit "geïsoleerde pod"-ontwerp betekent dat elk onderdeel gespecialiseerd kan zijn (net als System 1 versus System 2) en zelfs door verschillende teams kan worden ontwikkeld, maar ze kunnen toch samenwerken. Het is een unieke benadering in de zin dat Codec de diepe softwarestack bouwt om deze modulaire, gedistribueerde intelligentie te ondersteunen, terwijl de meeste anderen zich alleen richten op het AI-model zelf. Codec maakt ook gebruik van grote voorgetrainde modellen. Als je een robottoepassing erop bouwt, kun je een OpenVLA of een Pi Zero foundation model als onderdeel van je Operator aansluiten. Codec biedt de connectors, gemakkelijke toegang tot camerafeeds of robot-API's, zodat je de low-level code niet hoeft te schrijven om beelden van de camera van een robot te krijgen of om snelheidscommando's naar zijn motoren te sturen. Het is allemaal geabstraheerd achter een high-level SDK. Een van de redenen waarom ik zo optimistisch ben over Codec is precies wat ik hierboven heb uiteengezet. Ze achtervolgen geen verhalen, de architectuur is gebouwd om de lijm te zijn tussen foundation modellen, en het ondersteunt moeiteloos multi-brein systemen, wat cruciaal is voor de complexiteit van humanoïden. Omdat we zo vroeg in deze trend zijn, is het de moeite waard om de ontwerpen van industrie leiders te bestuderen en te begrijpen waarom ze werken. Robotica is moeilijk te begrijpen gezien de lagen over hardware en software, maar zodra je leert om elk gedeelte stuk voor stuk af te breken, wordt het veel gemakkelijker te verteren. Het kan nu als een verspilling van tijd aanvoelen, maar dit is dezelfde methode die me een voorsprong gaf tijdens AI szn en waarom ik vroeg bij zoveel projecten was. Word gedisciplineerd en leer welke componenten naast elkaar kunnen bestaan en welke componenten niet opschalen. Het zal zich de komende maanden uitbetalen. Deca Trillions ( $CODEC ) gecodeerd.
7,55K