Låt mig måla bilden. Säg att du vill att en Humanoid ska laga en utsökt middag medan du sitter i soffan och tittar på Netflix. Hur skulle detta fungera på en teknisk nivå eftersom Humanoid kräver flera hjärnor för att laga din middag? Robotens intelligens är inte monolitisk, utan ett team av AI-moduler som kombinerar långsam överläggning med snabba reflexer (System 2 + System 1-design). Dess VLA-modell (vision-language-action) delar upp kognition i en resonemangsmodul och en reaktiv kontrollpolicy. Eftersom roboten körs på en kognitiv arkitektur med flera hjärnor, skulle den snurra upp en dedikerad "kock"-operatör för att hantera din begäran, som att undersöka köket med sina kameror, leta upp ett recept och sedan styra sina lemmar för att börja hacka grönsaker. Dessa hjärnor kan delas upp i följande operatorer. Hjärna #1: För att laga en utsökt middag behöver du en verkställande planerare. Den tolkar ditt kommando ("förbereda middag") för att bestämma målet (göra pasta). Med hjälp av naturlig språkförståelse bestämmer den vilka deluppgifter som behövs (hitta ingredienser, laga pasta, duka bordet etc.) och vilka andra hjärnor som ska hantera varje. Den samordnar multiagentsystemet och aktiverar specialiserade moduler för syn, kunskap och rörelse. Denna deliberativa hjärna (system 2) fattar beslut på högsta nivå, lägger fram tillvägagångssättet och fördelar ansvar innan några fysiska rörelser börjar. Hjärna #2: Nu när du har receptet behöver du lite robotögon och rumslig medvetenhet. Den bearbetar kameraflöden för att identifiera ingredienser, verktyg och deras platser i köket. Med hjälp av avancerat datorseende ser den skärbrädan, grönsakerna i kylen, kniven på bänken etc. Den bygger en 3D-karta över miljön och spårar relevanta objekt (som var saltet eller kastrullerna finns). Denna perceptuella hjärna (System 2) går långsammare än reflexer, men ger en korrekt scenkontext för planering. Genom att känna igen alla inblandade delar utbildar den roboten i den verkliga världen. Hjärna #3: Denna hjärna fungerar som robotens kunskapsbas och minne (System 2). Den hämtar och tolkar information som behövs för uppgiften, i det här fallet ett lämpligt recept och matlagningsinstruktioner. Den kan fråga en onlinekokbok eller dess interna databas efter ett pastarecept och sedan tolka stegen (koka vatten, hacka vitlök, etc.). Den påminner om fakta om köket (som var kryddor förvaras) och tidigare matlagningsupplevelser. I grund och botten handlar det om att ge semantisk förståelse och världskunskap. Beräknar sedan abstrakta instruktioner (karamellisera löken) till konkreta parametrar (temperatur, timing) som roboten kan utföra, vilket säkerställer att planen överensstämmer med dina preferenser. Hjärna #4: Med målet och miljön klargjord har vi tagit fram en detaljerad spelplan. Den delar upp högnivåmålet i ordnade åtgärder och villkorliga steg. Den schemalägger uppgifter (ibland parallellt, som att förvärma ugnen medan du hackar grönsaker) och sätter milstolpar (vatten kokat, sås klar). Den spårar också framsteg och kan planera om i farten om något ändras (t.ex. att en ingrediens saknas). Den lämnar sedan över denna actionsekvens till hjärnorna på rörelsenivå för utförande. En annan System 2-hjärna. Hjärna #5: Dags att gå från System 2-arkitekturen och gå över till System 1, där planen översätts till konkreta robotrörelser. För varje åtgärd (som "gå till kylskåpet" eller "hacka morötter") genererar den tillämpliga banor för robotens kropp och lemmar. Den här modulen hanterar banplanering och invers kinematik och beräknar ledbanor och vinklar så att roboten rör sig smidigt utan kollisioner. Den tillämpar vanligtvis inlärda motoriska policyer (som en diffusionstransformatorpolicy) för att producera flytande rörelser för komplexa uppgifter. Om Brain 4 säger att de ska hämta en kastrull från kylskåpet, kommer Brain 5 på hur man får dit roboten och hur man tar tag i kastrullen. Där den koordinerar flera lemmar när det behövs (med två händer för att lyfta en tung kruka, till exempel). Avsikt på hög nivå förvandlas till en konvergens av hårdvara och mjukvara som rör sig i rörelse Hjärna #6: När en rörelseplan är fastställd är det dags att genomföra. Denna System 1-kontrollhjärna på låg nivå driver robotens ställdon (motorer och leder). Den läser kontinuerligt av sensorer (ledvinklar, kraft, balans) och skickar styrsignaler för att följa banan. Genom att använda kontrollslingor (PID-regulatorer, modellprediktiv styrning etc.) för att hålla precisionen korrigerar roboten omedelbart om den börjar tippa eller om en kniv hamnar ur kurs. Dessa är reflexerna och finmotoriken som arbetar med millisekundhastigheter. När roboten skär en morot modulerar Brain 6 kraften och justerar bladvinkeln för att få enhetliga skivor utan att halka. Det är som det undermedvetna "muskelminnet" i systemet, som hanterar detaljer på låg nivå automatiskt. Hjärna #7: Den sista delen fokuserar på ständiga förbättringar. Under och efter middagsförberedelserna analyserar den prestandan. Spillde det något? Var den för långsam att röra om? Den här modulen använder förstärkningsinlärning och självkalibrering för att uppdatera robotens modeller över tid. Robotens kärnfärdigheter tränades ursprungligen på massiva mänskliga demonstrationer och försök och misstag, men du måste kontinuerligt finjustera dem. Om den upptäcker en effektivare tärningsteknik eller ett bättre spatelgrepp, uppdaterar den sin policy så att nästa middag går ännu smidigare. Denna adaptiva hjärna gör det möjligt för humanoiden att bli skickligare med erfarenhet. Codec: Operatorer i aktion Hur knyter Codecs arkitektur ihop dessa hjärnor? Varje "hjärna" körs som en separat operatörsmodul i robotens AI-system. Codec:s Fabric-orkestrering ger varje operatör sin egen säkra miljö i sandlådan. Det betyder att visionsmodulen, språk-/logikmodulen, planeringsmodulen etc. alla körs isolerat men ändå kommunicerar via definierade gränssnitt. Om en modul kraschar eller har fel kommer det inte att få ner hela roboten, de andra fortsätter att köra säkert. Denna modulära design gör det också enkelt att uppdatera eller byta ut en hjärna utan att påverka resten, och att lägga till nya specialiserade operatörer efter behov. Den här operatormetoden har direkt stöd för ramverket för flera hjärnor. När du ber om middag kan robotens exekutiva hjärna (Brain 1) snurra upp en "kock"-operatör som är dedikerad till den uppgiften, medan andra operatörer hanterar perception och kontroll parallellt. Varje operatör har bara tillgång till de resurser som behövs (receptagenten kan till exempel ha internetåtkomst för att hämta instruktioner, medan kontrollagenten endast har gränssnitt med maskinvara), vilket förbättrar säkerheten. Codecs modulära, sandlådebaserade design är limmet till alla dessa olika färdigheter som arbetar tillsammans, liknande mikrotjänster i programvara, vilket gör det möjligt för humanoiden att på ett tillförlitligt sätt hantera komplexa uppgifter som att laga middag från grunden. Det är därför $CODEC kommer att vara den primära infrastrukturen för robotik.
Trissy
Trissy23 aug. 18:30
Du kommer att se grundmodeller för humanoider kontinuerligt med hjälp av en arkitektur i stil med System 2 + System 1 som faktiskt är inspirerad av mänsklig kognition. De flesta VLA-modeller (vision-language-action) är idag byggda som centraliserade multimodala system som hanterar perception, språk och handling inom ett enda nätverk. Codecs infrastruktur är perfekt för detta eftersom den behandlar varje operatör som en sandlådemodul. Det innebär att du kan skapa flera operatörer parallellt, som var och en kör sin egen modell eller uppgift, samtidigt som de är inkapslade och koordinerade genom samma arkitektur. Robotar och humanoider i allmänhet har vanligtvis flera hjärnor, där en operatör kan hantera synbehandling, en annan hantera balans, en annan göra planering på hög nivå etc, som alla kan samordnas genom Codecs system. Nvidias grundmodell Issac GR00T N1 använder sig av System 2 + System 1-arkitekturen med två moduler. System 2 är en visionsspråksmodell (en version av PaLM eller liknande, multimodal) som observerar världen genom robotens kameror och lyssnar på instruktioner och sedan gör en plan på hög nivå. System 1 är en diffusionstransformatorpolicy som tar den planen och omvandlar den till kontinuerliga rörelser i realtid. Du kan tänka på System 2 som den deliberativa hjärnan och System 1 som den instinktiva kroppskontrollanten. System 2 kan mata ut något i stil med "flytta till den röda koppen, ta tag i den och placera den sedan på hyllan", och system 1 kommer att generera de detaljerade ledbanorna för benen och armarna för att utföra varje steg smidigt. System 1 tränades på massor av bandata (inklusive mänskliga fjärrstyrda demos och fysiksimulerade data) för att bemästra fina rörelser, medan System 2 byggdes på en transformator med internetförträning (för semantisk förståelse). Denna separation av resonemang kontra agerande är mycket kraftfull för NVIDIA. Det innebär att GR00T kan hantera uppgifter med lång horisont som kräver planering (tack vare System 2) och även reagera omedelbart på störningar (tack vare System 1). Om en robot bär på en bricka och någon knuffar på brickan kan System 1 korrigera balansen omedelbart i stället för att vänta på att det långsammare System 2 ska märka det. GR00T N1 var en av de första öppet tillgängliga modellerna för robotfundament, och den fick snabbt draghjälp. Direkt ur lådan visade den skicklighet i många uppgifter i simulering, den kunde greppa och flytta objekt med en hand eller två, handföremål mellan händerna och utföra sysslor i flera steg utan någon uppgiftsspecifik programmering. Eftersom den inte var knuten till en enda utföringsform visade utvecklarna att den fungerade på olika robotar med minimala justeringar. Detta gäller även för Helix (Figures grundmodell) som använder denna typ av arkitektur. Helix gör det möjligt för två robotar eller flera färdigheter att fungera, Codec kan möjliggöra en multiagenthjärna genom att köra flera operatörer som delar information. Denna "isolerade pod"-design innebär att varje komponent kan vara specialiserad (precis som System 1 vs System 2) och till och med utvecklas av olika team, men de kan arbeta tillsammans. Det är ett unikt tillvägagångssätt i den meningen att Codec bygger den djupa mjukvarustacken för att stödja denna modulära, distribuerade intelligens, medan de flesta andra bara fokuserar på själva AI-modellen. Codec utnyttjar också stora förtränade modeller. Om du bygger en robotapplikation på den kan du koppla in en OpenVLA- eller en Pi Zero-grundmodell som en del av din operatör. Codec ger kontakterna, enkel åtkomst till kameraflöden eller robot-API:er, så att du inte behöver skriva lågnivåkoden för att få bilder från en robots kamera eller för att skicka hastighetskommandon till dess motorer. Allt abstraheras bakom en SDK på hög nivå. En av anledningarna till att jag är så hausse på Codec är precis vad jag beskrev ovan. De jagar inte berättelser, arkitekturen är byggd för att vara limmet mellan grundmodellerna och den stöder friktionsfritt system med flera hjärnor, vilket är avgörande för humanoid komplexitet. Eftersom vi är så tidiga i den här trenden är det värt att studera branschledarnas design och förstå varför de fungerar. Robotteknik är svårt att förstå med tanke på de olika lagren av hårdvara och mjukvara, men när du väl har lärt dig att bryta ner varje sektion bit för bit blir det mycket lättare att smälta. Det kanske känns som slöseri med tid nu, men det här är samma metod som gav mig ett försprång under AI-szn och varför jag var tidig med så många projekt. Bli disciplinerad och lär dig vilka komponenter som kan samexistera och vilka komponenter som inte kan skalas. Det kommer att ge utdelning under de kommande månaderna. Deca Trillions ( $CODEC ) kodade.
7,54K