La meg male bildet. Si at du vil ha en Humanoid til å lage en deilig middag mens du sitter på sofaen og ser på Netflix. Hvordan ville dette fungere på et teknisk nivå siden Humanoid krever flere hjerner for å lage middagen din? Robotens intelligens er ikke monolitisk, men et team av AI-moduler som kombinerer langsom overveielse med raske reflekser (System 2 + System 1-design). Dens visjon-språk-handling (VLA)-modell deler kognisjon i en resonneringsmodul og en reaktiv kontrollpolicy. Ettersom roboten kjører på en kognitiv arkitektur med flere hjerner, vil den spinne opp en dedikert "kokk"-operatør for å håndtere forespørselen din, for eksempel å kartlegge kjøkkenet med kameraene, slå opp en oppskrift og deretter dirigere lemmene til å begynne å hakke grønnsaker. Disse hjernene kan deles inn i følgende operatorer. Hjerne #1: For å lage en deilig middag trenger du en utøvende planlegger. Den tolker kommandoen din ("tilbered middag") for å bestemme målet (lage pasta). Ved hjelp av naturlig språkforståelse bestemmer den hvilke underoppgaver som trengs (finne ingredienser, koke pasta, dekke bord osv.) og hvilke andre hjerner som skal håndtere hver. Den koordinerer multiagentsystemet: aktivering av spesialiserte moduler for syn, kunnskap og bevegelse. Denne deliberative hjernen (system 2) tar beslutninger på toppnivå, legger tilnærmingen og fordeler ansvar før fysiske bevegelser starter. Hjerne #2: Nå som du har oppskriften, trenger du noen robotøyne og romlig bevissthet. Den behandler kamerafeeder for å identifisere ingredienser, verktøy og deres plassering på kjøkkenet. Ved hjelp av avansert datasyn ser den skjærebrettet, grønnsakene i kjøleskapet, kniven på benken osv. Den bygger et 3D-kart over omgivelsene og sporer relevante objekter (som hvor saltet eller pannene er). Denne perseptuelle hjernen (System 2) går saktere enn reflekser, men gir nøyaktig scenekontekst for planlegging. Ved å gjenkjenne alle brikkene som er involvert, utdanner den roboten i den virkelige verden. Hjerne #3: Denne hjernen fungerer som robotens kunnskapsbase og minne (System 2). Den henter og analyserer informasjon som trengs for oppgaven, i dette tilfellet en passende oppskrift og tilberedningsinstruksjoner. Den kan spørre en online kokebok eller dens interne database etter en pastaoppskrift, og deretter tolke trinnene (koke vann, hakke hvitløk osv.). Den minner om fakta om kjøkkenet (som hvor krydder oppbevares) og tidligere matlagingsopplevelser. I hovedsak å gi semantisk forståelse og verdenskunnskap. Deretter beregner abstrakte instruksjoner (karamelliser løken) til konkrete parametere (temperatur, timing) som roboten kan utføre, og sikrer at planen stemmer overens med dine preferanser. Hjerne #4: Med målet og miljøet avklart, har vi utarbeidet en detaljert kampplan. Den bryter ned målet på høyt nivå i ordnede handlinger og betingede trinn. Den planlegger oppgaver (noen ganger parallelt, som å forvarme ovnen mens du hakker grønnsaker) og setter milepæler (kokt vann, saus klar). Den sporer også fremgang og kan planlegge på nytt på farten hvis noe endres (si at en ingrediens mangler). Den overleverer deretter denne handlingssekvensen til hjernene på bevegelsesnivå for utførelse. Nok en System 2-hjerne. Hjerne #5: På tide å gå fra System 2-arkitekturen og gå over til System 1, og oversette planen til konkrete robotbevegelser. For hver handling (som «gå til kjøleskapet» eller «hakk gulrøtter»), genererer den aktuelle baner for robotens kropp og lemmer. Denne modulen håndterer baneplanlegging og invers kinematikk, og beregner leddbaner og vinkler slik at roboten beveger seg jevnt uten kollisjoner. Den bruker vanligvis lærte motoriske retningslinjer (som en diffusjonstransformatorpolicy) for å produsere væskebevegelser for komplekse oppgaver. Hvis Hjerne 4 sier at han skal hente en gryte fra kjøleskapet, finner Hjerne 5 ut hvordan han skal få roboten dit og hvordan han skal få tak i gryten. Der den koordinerer flere lemmer ved behov (for eksempel ved å bruke to hender til å løfte en tung gryte). Intensjon på høyt nivå blir til en konvergens av maskinvare og programvare som beveger seg i bevegelse Hjerne #6: Når en bevegelsesplan er satt, er det på tide å utføre. Denne lave nivå System 1-kontrollhjernen driver robotens aktuatorer (motorer og ledd). Den leser kontinuerlig sensorer (leddvinkler, kraft, balanse) og sender styresignaler for å følge banen. Ved å bruke kontrollsløyfer (PID-kontrollere, modellprediktiv kontroll osv.) for å opprettholde presisjonen, korrigerer den umiddelbart hvis roboten begynner å tippe eller en kniv svinger ut av kurs. Dette er refleksene og finmotorikken som opererer i millisekundhastigheter. Mens roboten skjærer en gulrot, modulerer Brain 6 kraften og justerer bladvinkelen for å få jevne skiver uten å skli. Det er som det underbevisste "muskelminnet" til systemet, som håndterer detaljer på lavt nivå automatisk. Hjerne #7: Den siste delen fokuserer på kontinuerlig forbedring. Under og etter middagsforberedelsene analyserer den ytelsen. Sølte det noe? Var den for treg til å røre? Denne modulen bruker forsterkende læring og selvkalibrering for å oppdatere robotens modeller over tid. Robotens kjerneferdigheter ble opprinnelig trent på massive menneskelige demonstrasjoner og prøving og feiling, men du må kontinuerlig finjustere dem. Hvis den oppdager en mer effektiv terningteknikk eller et bedre slikkepottgrep, oppdaterer den policyen slik at neste middag går enda jevnere. Denne adaptive hjernen gjør at humanoiden kan bli dyktigere med erfaring. Kodek: Operatører i aksjon Hvordan knytter Codecs arkitektur disse hjernene sammen? Hver "hjerne" kjører som en egen operatørmodul i robotens AI-system. Codecs Fabric-orkestrering gir hver operatør sitt eget sikre, sandkassemiljø. Det betyr at visjonsmodulen, språk/logikk-modulen, planleggingsmodulen osv., alle kjører isolert, men kommuniserer gjennom definerte grensesnitt. Hvis en modul krasjer eller har feil, vil den ikke få ned hele roboten, de andre fortsetter å kjøre trygt. Denne modulære designen gjør det også enkelt å oppdatere eller bytte ut en hjerne uten å påvirke resten, og å legge til nye spesialiserte operatører etter behov. Denne operatørtilnærmingen støtter direkte multihjernerammeverket. Når du ber om middag, kan robotens utøvende hjerne (hjerne 1) spinne opp en "kokk"-operatør dedikert til den oppgaven, mens andre operatører håndterer persepsjon og kontroll parallelt. Hver operatør har bare tilgang til ressursene den trenger (for eksempel kan oppskriftsagenten ha internettilgang for å hente instruksjoner, mens kontrollagenten bare grensesnitt med maskinvare), noe som forbedrer sikkerheten. Codecs modulære, sandkassebaserte design er limet til alle disse forskjellige ferdighetene som jobber sammen, på samme måte som mikrotjenester i programvare, slik at humanoiden kan håndtere komplekse oppgaver som å lage middag fra bunnen av. Dette er grunnen til at $CODEC vil være den primære infrastrukturen for robotikk.
Trissy
Trissy23. aug., 18:30
Du vil se grunnmodeller for humanoider kontinuerlig ved å bruke en System 2 + System 1-stilarkitektur som faktisk er inspirert av menneskelig kognisjon. De fleste visjon-språk-handling (VLA)-modeller i dag er bygget som sentraliserte multimodale systemer som håndterer persepsjon, språk og handling i ett enkelt nettverk. Codecs infrastruktur er perfekt for dette, da den behandler hver operatør som en sandkassemodul. Det betyr at du kan spinne opp flere operatører parallelt, hver kjører sin egen modell eller oppgave, mens du holder dem innkapslet og koordinert gjennom samme arkitektur. Roboter og humanoider generelt har vanligvis flere hjerner, der en operatør kan håndtere synsbehandling, en annen håndtere balanse, en annen som gjør planlegging på høyt nivå osv., som alle kan koordineres gjennom Codecs system. Nvidias grunnmodell Issac GR00T N1 bruker de to modulene System 2 + System 1-arkitekturen. System 2 er en visjonsspråkmodell (en versjon av PaLM eller lignende, multimodal) som observerer verden gjennom robotens kameraer og lytter til instruksjoner, og deretter lager en plan på høyt nivå. System 1 er en diffusjonstransformatorpolicy som tar den planen og gjør den om til kontinuerlige bevegelser i sanntid. Du kan tenke på System 2 som den deliberative hjernen og System 1 som den instinktive kroppskontrolleren. System 2 kan sende ut noe sånt som "flytt til den røde koppen, ta tak i den, og legg den deretter på hyllen", og System 1 vil generere de detaljerte leddbanene for bena og armene for å utføre hvert trinn jevnt. System 1 ble trent på tonnevis av banedata (inkludert menneskelige fjernstyrte demoer og fysikksimulerte data) for å mestre fine bevegelser, mens System 2 ble bygget på en transformator med internett-forhåndstrening (for semantisk forståelse). Denne separasjonen mellom resonnement og skuespill er veldig kraftig for NVIDIA. Det betyr at GR00T kan håndtere langsiktige oppgaver som krever planlegging (takket være System 2) og også reagere umiddelbart på forstyrrelser (takket være System 1). Hvis en robot bærer et brett og noen dytter brettet, kan System 1 korrigere balansen umiddelbart i stedet for å vente på at det tregere System 2 skal legge merke til det. GR00T N1 var en av de første åpent tilgjengelige robotfundamentmodellene, og den fikk raskt gjennomslag. Ut av esken demonstrerte den dyktighet på tvers av mange oppgaver i simulering, den kunne gripe og flytte objekter med en hånd eller to, hånd gjenstander mellom hendene og utføre flertrinnsoppgaver uten noen oppgavespesifikk programmering. Fordi den ikke var knyttet til en enkelt utførelsesform, viste utviklerne at den fungerte på forskjellige roboter med minimale justeringer. Dette gjelder også for Helix (Figure's fundamentmodell) som bruker denne typen arkitektur. Helix tillater to roboter eller flere ferdigheter å operere, Codec kan muliggjøre en multiagenthjerne ved å kjøre flere operatører som deler informasjon. Denne "isolerte pod"-designen betyr at hver komponent kan spesialiseres (akkurat som System 1 vs System 2) og til og med utvikles av forskjellige team, men de kan fungere sammen. Det er en unik tilnærming i den forstand at Codec bygger den dype programvarestabelen for å støtte denne modulære, distribuerte intelligensen, mens de fleste andre bare fokuserer på selve AI-modellen. Codec utnytter også store forhåndstrente modeller. Hvis du bygger en robotapplikasjon på den, kan du koble til en OpenVLA- eller en Pi Zero-fundamentmodell som en del av operatøren. Codec gir kontaktene, enkel tilgang til kamerafeeder eller robot-APIer, slik at du ikke trenger å skrive lavnivåkoden for å hente bilder fra en robots kamera eller for å sende hastighetskommandoer til motorene. Det hele er abstrahert bak et SDK på høyt nivå. En av grunnene til at jeg er så bullish på Codec er akkurat det jeg skisserte ovenfor. De jager ikke fortellinger, arkitekturen er bygget for å være limet mellom grunnmodeller, og den støtter friksjonsfritt multihjernesystemer, noe som er avgjørende for humanoid kompleksitet. Fordi vi er så tidlig i denne trenden, er det verdt å studere designene til bransjeledere og forstå hvorfor de fungerer. Robotikk er vanskelig å forstå gitt lagene på tvers av maskinvare og programvare, men når du lærer å bryte ned hver seksjon bit for bit, blir det langt lettere å fordøye. Det kan føles som bortkastet tid nå, men dette er den samme metoden som ga meg et forsprang under AI szn og hvorfor jeg var tidlig ute med så mange prosjekter. Bli disiplinert og lær hvilke komponenter som kan eksistere sammen og hvilke komponenter som ikke skaleres. Det vil gi utbytte i løpet av de kommende månedene. Deca billioner ( $CODEC ) kodet.
7,58K