Anna minun maalata kuva. Oletetaan, että haluat humanoidin valmistavan herkullisen illallisen, kun istut sohvalla ja katsot Netflixiä. Miten tämä toimisi teknisellä tasolla, koska Humanoidi tarvitsee useita aivoja illallisen valmistamiseen? Robotin älykkyys ei ole monoliittinen, vaan tekoälymoduulien ryhmä, jossa yhdistyvät hidas harkinta ja nopeat refleksit (System 2 + System 1 -suunnittelu). Sen visio-kieli-toiminta (VLA) -malli jakaa kognition päättelymoduuliin ja reaktiiviseen kontrollipolitiikkaan. Koska robotti toimii moniaivoisella kognitiivisella arkkitehtuurilla, se pyörittää oman "kokki"-operaattorin käsittelemään pyyntösi, kuten tutkimaan keittiötä kameroillaan, etsimään reseptiä ja ohjaamaan sitten raajojaan aloittamaan vihannesten pilkkomisen. Nämä aivot voidaan jakaa seuraaviin operaattoreihin. Aivot #1: Herkullisen illallisen valmistamiseen tarvitset johtajan. Se tulkitsee käskysi ("valmista illallinen") määrittääkseen tavoitteen (pastan valmistaminen). Luonnollisen kielen ymmärtämisen avulla se päättää, mitä osatehtäviä tarvitaan (ainesosien etsiminen, pastan keittäminen, pöydän kattaminen jne.) ja mitkä muut aivot hoitavat kutakin. Se koordinoi moniagenttijärjestelmää: aktivoi erikoistuneita moduuleja näköä, tietoa ja liikettä varten. Nämä keskustelevat aivot (järjestelmä 2) tekevät ylimmän tason päätöksiä, määrittelevät lähestymistavan ja jakavat vastuut ennen fyysisten liikkeiden alkamista. Aivot #2: Nyt kun sinulla on resepti, tarvitset robottisilmiä ja tilatietoisuutta. Se käsittelee kamerasyötteitä tunnistaakseen ainesosat, työkalut ja niiden sijainnit keittiössä. Kehittyneen konenäön avulla se näkee leikkuulaudan, jääkaapissa olevat vihannekset, tiskillä olevan veitsen jne. Se rakentaa 3D-kartan ympäristöstä ja seuraa asiaankuuluvia kohteita (kuten suolan tai pannujen sijaintia). Nämä havaintoaivot (Järjestelmä 2) toimivat hitaammin kuin refleksit, mutta tarjoavat tarkan kohtauskontekstin suunnittelua varten. Tunnistamalla kaikki mukana olevat osat se kouluttaa robotin todelliseen maailmaan. Aivot #3: Nämä aivot toimivat robotin tietopohjana ja muistina (Järjestelmä 2). Se hakee ja jäsentää tehtävään tarvittavat tiedot, tässä tapauksessa sopivan reseptin ja ruoanlaitto-ohjeet. Se saattaa kysyä online-keittokirjasta tai sen sisäisestä tietokannasta pastareseptiä ja tulkita sitten vaiheet (kiehauta vettä, pilko valkosipulia jne.). Se muistuttaa faktoja keittiöstä (kuten mausteiden säilytyksestä) ja menneistä ruoanlaittokokemuksista. Pohjimmiltaan semanttisen ymmärryksen ja maailmantuntemuksen tarjoaminen. Sitten laskee abstraktit ohjeet (karamellisoida sipulit) konkreettisiksi parametreiksi (lämpötila, ajoitus), jotka robotti voi suorittaa varmistaen, että suunnitelma vastaa mieltymyksiäsi. Aivot #4: Kun tavoite ja ympäristö on selvitetty, olemme laatineet yksityiskohtaisen pelisuunnitelman. Se jakaa korkean tason tavoitteen järjestettyihin toimiin ja ehdollisiin vaiheisiin. Se ajoittaa tehtävät (joskus rinnakkain, kuten esilämmittää uunin vihannesten pilkkomisen aikana) ja asettaa virstanpylväitä (vesi keitetty, kastike valmis). Se myös seuraa edistymistä ja voi suunnitella uudelleen lennossa, jos jokin muuttuu (esimerkiksi jokin ainesosa puuttuu). Sitten se luovuttaa tämän toimintajakson liiketason aivoille suoritettavaksi. Toiset System 2 -aivot. Aivot #5: On aika siirtyä System 2 -arkkitehtuurista System 1:een, jolloin suunnitelma muunnetaan konkreettisiksi robottiliikkeiksi. Jokaiselle toiminnolle (kuten "kävele jääkaapille" tai "pilko porkkanat") se luo soveltuvat liikeradat robotin keholle ja raajoille. Tämä moduuli käsittelee reitin suunnittelua ja käänteistä kinematiikkaa, laskee liitosreitit ja kulmat, jotta robotti liikkuu sujuvasti ilman törmäyksiä. Se soveltaa tyypillisesti opittuja motorisia käytäntöjä (kuten diffuusiomuuntajakäytäntöä) tuottaakseen nestemäisiä liikkeitä monimutkaisiin tehtäviin. Jos Aivot 4 käskee hakemaan kattilan jääkaapista, Aivot 5 keksii, miten robotti saadaan sinne ja miten kattilaan tarttutaan. Missä se koordinoi useita raajoja tarvittaessa (käyttämällä esimerkiksi kahta kättä raskaan ruukun nostamiseen). Korkean tason aikomus muuttuu liikkeessä liikkuvien laitteistojen ja ohjelmistojen lähentymiseksi Aivot #6: Kun liikesuunnitelma on asetettu, on aika toteuttaa. Nämä matalan tason System 1 -ohjausaivot ohjaavat robotin toimilaitteita (moottoreita ja niveliä). Se lukee jatkuvasti antureita (liitoskulmat, voima, tasapaino) ja lähettää ohjaussignaaleja liikeradan seuraamiseksi. Käyttämällä ohjaussilmukoita (PID-ohjaimet, mallin ennakoiva ohjaus jne.) tarkkuuden ylläpitämiseksi, jos robotti alkaa kaatua tai veitsi poikkeaa kurssilta, se korjaa välittömästi. Nämä ovat refleksejä ja hienomotorisia taitoja, jotka toimivat millisekunnin nopeuksilla. Kun robotti viipaloi porkkanaa, Brain 6 moduloi voimaa ja säätää terän kulmaa saadakseen tasaiset viipaleet luistamatta. Se on kuin järjestelmän alitajuinen "lihasmuisti", joka käsittelee matalan tason yksityiskohtia automaattisesti. Aivot #7: Viimeinen osa keskittyy jatkuvaan parantamiseen. Illallisen valmistelun aikana ja sen jälkeen se analysoi suorituskykyä. Läikkyikö siitä mitään? Oliko se liian hidas sekoittamaan? Tämä moduuli käyttää vahvistusoppimista ja itsekalibrointia robotin mallien päivittämiseen ajan myötä. Robotin ydintaitoja harjoiteltiin alun perin massiivisilla ihmisdemonstraatioilla ja yrityksen ja erehdyksen avulla, mutta niitä on jatkuvasti hienosäädettävä. Jos se löytää tehokkaamman kuutiotekniikan tai paremman lastaotteen, se päivittää käytäntönsä niin, että seuraava illallinen sujuu entistä sujuvammin. Nämä mukautuvat aivot antavat humanoidille mahdollisuuden tulla taitavammaksi kokemuksen myötä. Koodekki: Operaattorit toiminnassa Miten Codecin arkkitehtuuri sitoo nämä aivot yhteen? Jokainen "aivo" toimii erillisenä operaattorimoduulina robotin tekoälyjärjestelmässä. Codecin Fabric-orkestrointi tarjoaa jokaiselle operaattorille oman turvallisen, hiekkalaatikkoympäristön. Tämä tarkoittaa, että näkömoduuli, kieli/logiikkamoduuli, suunnittelumoduuli jne. toimivat kaikki eristyksissä, mutta kommunikoivat määriteltyjen rajapintojen kautta. Jos yksi moduuli kaatuu tai siinä on virheitä, se ei kaada koko robottia, muut jatkavat toimintaansa turvallisesti. Tämän modulaarisen rakenteen avulla on myös helppo päivittää tai vaihtaa yksi aivo vaikuttamatta muihin ja lisätä uusia erikoistuneita operaattoreita tarpeen mukaan. Tämä operaattorilähestymistapa tukee suoraan moniaivokehystä. Kun pyydät illallista, robotin toimeenpanevat aivot (aivot 1) voivat käynnistää kyseiseen tehtävään omistautuneen "kokki"-operaattorin, kun taas muut operaattorit hoitavat havainnon ja hallinnan rinnakkain. Kullakin operaattorilla on pääsy vain tarvitsemiinsa resursseihin (esimerkiksi reseptiagentilla voi olla Internet-yhteys ohjeiden hakemiseen, kun taas ohjausagentilla on vain laitteisto), mikä parantaa turvallisuutta. Codecin modulaarinen, hiekkalaatikkomainen muotoilu on liima kaikille näille erilaisille taidoille, jotka toimivat yhdessä, kuten ohjelmistojen mikropalvelut, joiden avulla humanoidi pystyy luotettavasti hoitamaan monimutkaisia tehtäviä, kuten illallisen valmistamisen alusta alkaen. Siksi $CODEC tulee olemaan robotiikan ensisijainen infra.
Trissy
Trissy23.8. klo 18.30
Näet humanoidien perusmalleja jatkuvasti käyttämällä System 2 + System 1 -tyylistä arkkitehtuuria, joka on itse asiassa saanut inspiraationsa ihmisen kognitiosta. Useimmat näkö-kieli-toimintamallit (VLA) on nykyään rakennettu keskitetyiksi multimodaalisiksi järjestelmiksi, jotka käsittelevät havaintoa, kieltä ja toimintaa yhdessä verkossa. Codecin infrastruktuuri on täydellinen tähän, koska se kohtelee jokaista operaattoria hiekkalaatikkomoduulina. Tämä tarkoittaa, että voit pyörittää useita operaattoreita rinnakkain, joista jokainen suorittaa oman mallinsa tai tehtävänsä, samalla kun pidät ne kapseloituina ja koordinoituina saman arkkitehtuurin kautta. Roboteilla ja humanoideilla yleensä on tyypillisesti useita aivoja, joissa yksi operaattori voi hoitaa näön käsittelyn, toinen tasapainon käsittelyn, toinen korkean tason suunnittelun jne., joita kaikkia voidaan koordinoida koodekin järjestelmän kautta. Nvidian perusmalli Issac GR00T N1 käyttää kahden moduulin System 2 + System 1 -arkkitehtuuria. Järjestelmä 2 on näkökielinen malli (versio PaLM:stä tai vastaavasta, multimodaalista), joka tarkkailee maailmaa robotin kameroiden kautta ja kuuntelee ohjeita ja tekee sitten korkean tason suunnitelman. Järjestelmä 1 on diffuusiomuuntajakäytäntö, joka ottaa tämän suunnitelman ja muuttaa sen jatkuviksi liikkeiksi reaaliajassa. Voit ajatella Järjestelmää 2 keskustelevina aivoina ja Järjestelmää 1 vaistomaisena kehon kontrolloijana. Järjestelmä 2 saattaa tuottaa jotain sellaista kuin "siirry punaiseen kuppiin, tartu siihen ja aseta se sitten hyllylle", ja järjestelmä 1 luo jalkojen ja käsivarsien yksityiskohtaiset nivelradat jokaisen askeleen suorittamiseksi sujuvasti. Järjestelmä 1 koulutettiin tonneittain lentoratadataa (mukaan lukien ihmisen kauko-ohjatut demot ja fysiikan simuloitu data) hallitsemaan hienoja liikkeitä, kun taas System 2 rakennettiin muuntajalle, jossa oli Internet-esikoulutus (semanttista ymmärtämistä varten). Tämä päättelyn ja näyttelemisen erottaminen toisistaan on erittäin voimakas NVIDIA:lle. Se tarkoittaa, että GR00T pystyy käsittelemään pitkän aikavälin tehtäviä, jotka vaativat suunnittelua (System 2:n ansiosta) ja myös reagoimaan välittömästi häiriöihin (järjestelmän 1 ansiosta). Jos robotti kantaa tarjotinta ja joku tönäisee lokeroa, järjestelmä 1 voi korjata tasapainon välittömästi sen sijaan, että odottaisi hitaamman System 2:n huomaavan. GR00T N1 oli yksi ensimmäisistä avoimesti saatavilla olevista robotiikan perustusmalleista, ja se sai nopeasti jalansijaa. Pakkauksesta otettuna se osoitti taitoa monissa simulaatiotehtävissä, se pystyi tarttumaan ja siirtämään esineitä yhdellä tai kahdella kädellä, kävelemään esineitä käsiensä välissä ja suorittamaan monivaiheisia askareita ilman tehtäväkohtaista ohjelmointia. Koska se ei ollut sidottu yhteen suoritusmuotoon, kehittäjät näyttivät sen toimivan eri roboteilla minimaalisilla säädöillä. Tämä pätee myös Helixiin (Figuren perustusmalli), joka käyttää tämäntyyppistä arkkitehtuuria. Helix mahdollistaa kahden robotin tai useiden taitojen toiminnan, Codec voisi mahdollistaa usean agentin aivot suorittamalla useita tietoja jakavia operaattoreita. Tämä "eristetty pod" -rakenne tarkoittaa, että jokainen komponentti voidaan erikoistua (aivan kuten System 1 vs System 2) ja jopa kehittää eri tiimien toimesta, mutta ne voivat silti toimia yhdessä. Se on ainutlaatuinen lähestymistapa siinä mielessä, että Codec rakentaa syvää ohjelmistopinoa tukemaan tätä modulaarista, hajautettua älykkyyttä, kun taas useimmat muut keskittyvät vain itse tekoälymalliin. Koodekki hyödyntää myös suuria esikoulutettuja malleja. Jos rakennat siihen robottisovelluksen, voit liittää OpenVLA- tai Pi Zero -perusmallin osaksi operaattoriasi. Koodekki tarjoaa liittimet, helpon pääsyn kamerasyötteisiin tai robottisovellusliittymiin, joten sinun ei tarvitse kirjoittaa matalan tason koodia saadaksesi kuvia robotin kamerasta tai lähettääksesi nopeuskomentoja sen moottoreille. Kaikki on abstraktoitu korkean tason SDK:n taakse. Yksi syy siihen, miksi olen niin positiivinen Codecin suhteen, on juuri se, mitä edellä kuvasin. He eivät jahtaa tarinoita, arkkitehtuuri on rakennettu liimaksi perusmallien väliin, ja se tukee kitkattomasti moniaivojärjestelmiä, mikä on kriittistä humanoidien monimutkaisuudelle. Koska olemme niin varhaisessa vaiheessa tätä trendiä, kannattaa tutkia alan johtajien malleja ja ymmärtää, miksi ne toimivat. Robotiikkaa on vaikea ymmärtää, kun otetaan huomioon laitteiston ja ohjelmiston kerrokset, mutta kun opit jakamaan jokaisen osan pala palalta, se on paljon helpompi sulattaa. Se saattaa tuntua ajanhukkalta nyt, mutta tämä on sama menetelmä, joka antoi minulle etumatkaa AI szn:n aikana ja miksi olin niin varhaisessa vaiheessa niin monissa projekteissa. Ole kurinalainen ja opi, mitkä komponentit voivat olla olemassa rinnakkain ja mitkä eivät. Se maksaa osinkoa tulevina kuukausina. Deca Trilions ( $CODEC ) koodattu.
7,55K