Dovolte mi namalovat obrázek. Řekněme, že chcete, aby humanoid uvařil lahodnou večeři, zatímco vy sedíte na gauči a sledujete Netflix. Jak by to fungovalo na technické úrovni, když humanoid vyžaduje několik mozků, aby vám připravil večeři? Inteligence robota není monolitická, ale tým AI modulů kombinujících pomalé uvažování s rychlými reflexy (design System 2 + System 1). Jeho model vision-language-action (VLA) rozděluje kognici na modul uvažování a reaktivní kontrolní politiku. Protože robot běží na multimozkové kognitivní architektuře, roztočí specializovaného operátora "šéfkuchaře", který by vyřídil váš požadavek, jako je průzkum kuchyně pomocí kamer, vyhledání receptu a následné nasměrování jeho končetin, aby začaly krájet zeleninu. Tyto mozky lze rozdělit na následující operátory. Mozek #1: Chcete-li uvařit lahodnou večeři, potřebujete výkonného plánovače. Interpretuje váš příkaz ("připravit večeři") a určí cíl (připravit těstoviny). Pomocí porozumění přirozenému jazyku rozhoduje, jaké dílčí úkoly jsou potřeba (najít ingredience, uvařit těstoviny, prostřít stůl atd.) a které jiné mozky by měly každý z nich zvládnout. Koordinuje multiagentní systém: aktivuje specializované moduly pro vidění, znalosti a pohyb. Tento deliberativní mozek (systém 2) činí rozhodnutí na nejvyšší úrovni, stanovuje přístup a rozděluje zodpovědnosti před zahájením jakýchkoli fyzických pohybů. Mozek #2: Teď, když máte recept, budete potřebovat robotické oči a prostorové vnímání. Zpracovává kamerové záznamy za účelem identifikace ingrediencí, nástrojů a jejich umístění v kuchyni. Pomocí pokročilého počítačového vidění vidí prkénko, zeleninu v lednici, nůž na pultu atd. Vytváří 3D mapu prostředí a sleduje relevantní objekty (například kde se nachází sůl nebo pánve). Tento percepční mozek (System 2) pracuje pomaleji než reflexy, ale poskytuje přesný kontext scény pro plánování. Tím, že rozpozná všechny zúčastněné části, vzdělává robota v reálném světě. Mozek #3: Tento mozek funguje jako znalostní báze a paměť robota (Systém 2). Načítá a analyzuje informace potřebné pro daný úkol, v tomto případě vhodný recept a pokyny k vaření. Může se dotazovat online kuchařky nebo její interní databáze na recept na těstoviny a poté interpretovat kroky (uvařit vodu, nasekat česnek atd.). Připomíná fakta o kuchyni (například kde se uchovává koření) a zkušenosti z vaření z minulosti. V podstatě poskytuje sémantické porozumění a znalosti světa. Poté vypočítá abstraktní instrukce (karamelizovat cibuli) do konkrétních parametrů (teplota, načasování), které může robot provést, a zajistí, aby plán byl v souladu s vašimi preferencemi. Mozek #4: Když jsme si vyjasnili cíl a prostředí, vymysleli jsme podrobný herní plán. Rozděluje cíl vysoké úrovně na uspořádané akce a podmíněné kroky. Plánuje úkoly (někdy paralelně, jako je předehřátí trouby při krájení zeleniny) a stanoví milníky (uvařená voda, připravená omáčka). Sleduje také pokrok a může za běhu přeplánovat, pokud se něco změní (řekněme, že chybí nějaká složka). Poté předá tuto akční sekvenci mozkům na úrovni pohybu k provedení. Další mozek Systému 2. Mozek #5: Je čas přejít od architektury Systému 2 k Systému 1, převedení plánu do konkrétních pohybů robota. Pro každou akci (jako "jdi k ledničce" nebo "nakrájej mrkev") generuje použitelné trajektorie pro tělo a končetiny robota. Tento modul zpracovává plánování dráhy a inverzní kinematiku, výpočet společných drah a úhlů, aby se robot pohyboval hladce a bez kolizí. Obvykle používá naučené motorické zásady (jako je politika difúzního transformátoru) k vytváření plynulých pohybů pro složité úkoly. Pokud Brain 4 řekne, aby vytáhli hrnec z ledničky, Brain 5 přijde na to, jak tam robota dostat a jak hrnec uchopit. Kde v případě potřeby koordinuje více končetin (například pomocí dvou rukou zvedá těžký hrnec). Vysoká úroveň záměru se mění v konvergenci hardwaru a softwaru pohybujícího se v pohybu Mozek #6: Jakmile je stanoven plán pohybu, je čas jej provést. Tento nízkoúrovňový řídicí mozek Systému 1 pohání akční členy robota (motory a klouby). Nepřetržitě snímá senzory (úhly kloubů, sílu, rovnováhu) a vysílá řídicí signály pro sledování trajektorie. Pomocí regulačních smyček (PID regulátory, prediktivní řízení modelu atd.) k udržení přesnosti, pokud se robot začne naklánět nebo se nůž odchýlí od kurzu, okamžitě provede korekci. Jedná se o reflexy a jemnou motoriku pracující při milisekundových rychlostech. Když robot krájí mrkev, Brain 6 moduluje sílu a upravuje úhel čepele, aby získal rovnoměrné plátky bez sklouznutí. Je to jako podvědomá "svalová paměť" systému, která automaticky zpracovává detaily na nízké úrovni. Mozek #7: Poslední část se zaměřuje na neustálé zlepšování. Během přípravy večeře a po ní analyzuje výkon. Rozlilo se něco? Míchala se příliš pomalu? Tento modul využívá zpětnovazební učení a autokalibraci k aktualizaci modelů robota v průběhu času. Základní dovednosti robota byly zpočátku trénovány na masivních lidských demonstracích a pokusech a omylech, ale musíte je neustále dolaďovat. Pokud objeví efektivnější techniku krájení na kostičky nebo lepší úchop špachtle, aktualizuje své zásady tak, aby další večeře proběhla ještě hladčeji. Tento adaptivní mozek umožňuje humanoidovi stát se zručnějším se zkušenostmi. Kodek: Operátoři v akci Jak architektura Codecu tyto mozky propojuje? Každý "mozek" běží jako samostatný modul operátora v systému umělé inteligence robota. Orchestrace Fabric kodeku poskytuje každému operátorovi vlastní zabezpečené prostředí v izolovaném prostoru. To znamená, že modul vidění, jazykový/logický modul, plánovací modul atd. běží izolovaně, ale komunikují prostřednictvím definovaných rozhraní. Pokud jeden modul spadne nebo má chyby, nesrazí to celého robota, ostatní běží bezpečně. Tato modulární konstrukce také usnadňuje aktualizaci nebo výměnu jednoho mozku bez ovlivnění zbytku a podle potřeby přidává nové specializované operátory. Tento operátorský přístup přímo podporuje rámec multi brain. Když požádáte o večeři, výkonný mozek robota (Brain 1) může roztočit operátora "šéfkuchaře", který se věnuje tomuto úkolu, zatímco ostatní operátoři se paralelně starají o vnímání a kontrolu. Každý operátor má přístup pouze ke zdrojům, které potřebuje (například agent receptu může mít přístup k internetu pro načítání instrukcí, zatímco řídicí agent komunikuje pouze s hardwarem), což zvyšuje bezpečnost. Modulární design kodeku v izolovaném prostoru je lepidlem všech těchto různorodých dovedností, které spolupracují, podobně jako mikroslužby v softwaru, což humanoidům umožňuje spolehlivě zvládat složité úkoly, jako je vaření večeře od nuly. To je důvod, proč $CODEC bude primární infrastrukturou pro robotiku.
Trissy
Trissy23. 8. 18:30
Uvidíte základní modely pro humanoidy, které neustále používají architekturu ve stylu System 2 + System 1, která je ve skutečnosti inspirována lidským poznáním. Většina modelů vize-jazyk-akce (VLA) je dnes postavena jako centralizované multimodální systémy, které zpracovávají vnímání, jazyk a akce v rámci jedné sítě. Infrastruktura kodeku je pro to ideální, protože s každým operátorem zachází jako s modulem v izolovaném prostoru. To znamená, že můžete paralelně spustit více operátorů, z nichž každý provozuje svůj vlastní model nebo úlohu, a přitom je udržovat zapouzdřené a koordinované prostřednictvím stejné architektury. Roboti a humanoidi obecně mají obvykle více mozků, kde jeden operátor může zpracovávat obraz, další balancovat, další provádět plánování na vysoké úrovni atd., což vše může být koordinováno prostřednictvím systému Codecu. Základní model Nvidie Issac GR00T N1 využívá architekturu dvou modulů System 2 + System 1. Systém 2 je model jazyka vidění (verze PaLM nebo podobná, multimodální), který pozoruje svět skrze kamery robota a poslouchá pokyny, poté vytváří plán na vysoké úrovni. Systém 1 je politika difúzního transformátoru, která přebírá tento plán a převádí jej na nepřetržité pohyby v reálném čase. Systém 2 si můžete představit jako deliberativní mozek a Systém 1 jako instinktivní kontrolor těla. Systém 2 může vydávat něco jako "přesuňte se k červenému šálku, uchopte jej a pak jej položte na polici" a Systém 1 vygeneruje podrobné trajektorie kloubů pro nohy a paže, aby se každý krok hladce provedl. Systém 1 byl trénován na tunách dat o trajektorii (včetně teleoperovaných ukázek a fyzikálně simulovaných dat), aby zvládl jemné pohyby, zatímco Systém 2 byl postaven na transformátoru s předběžným trénováním internetu (pro sémantické porozumění). Toto oddělení uvažování a jednání je pro NVIDIA velmi silné. To znamená, že GR00T dokáže zvládnout úlohy s dlouhým horizontem, které vyžadují plánování (díky Systému 2) a také okamžitě reagovat na poruchy (díky Systému 1). Pokud robot nese podnos a někdo do něj šťouchne, Systém 1 může rovnováhu okamžitě opravit, místo aby čekal, až si toho všimne pomalejší Systém 2. GR00T N1 byl jedním z prvních otevřeně dostupných základních modelů robotiky a rychle se prosadil. Po vybalení z krabice prokázal dovednosti v mnoha úlohách v simulaci, dokázal uchopit a přesunout objekty jednou nebo dvěma rukama, předměty v ruce mezi rukama a provádět vícekrokové práce bez jakéhokoli programování specifického pro daný úkol. Protože nebyl vázán na jediné provedení, vývojáři jej ukázali při práci na různých robotech s minimálními úpravami. To platí také pro Helix (základní model figury), který používá tento typ architektury. Helix umožňuje pracovat dvěma robotům nebo více dovednostem, kodek by mohl umožnit multi agentní mozek spuštěním několika operátorů, kteří sdílejí informace. Tento design "izolovaného modulu" znamená, že každá komponenta může být specializovaná (stejně jako Systém 1 vs. Systém 2) a dokonce vyvinutá různými týmy, a přesto mohou spolupracovat. Je to jedinečný přístup v tom smyslu, že Codec vytváří hluboký softwarový stack pro podporu této modulární, distribuované inteligence, zatímco většina ostatních se zaměřuje pouze na samotný model AI. Kodek také využívá velké předtrénované modely. Pokud na něm vytváříte robotickou aplikaci, můžete jako součást svého operátora připojit základní model OpenVLA nebo Pi Zero. Kodek poskytuje konektory, snadný přístup ke zdrojům z kamer nebo rozhraní API robota, takže nemusíte psát nízkoúrovňový kód, abyste získali obrázky z kamery robota nebo odesílali příkazy k rychlosti jeho motorům. To vše je abstrahováno za sadou SDK vysoké úrovně. Jedním z důvodů, proč jsem tak býčí ohledně kodeku, je přesně to, co jsem nastínil výše. Nehoní se za příběhy, architektura je postavena tak, aby byla lepidlem mezi základními modely, a bez tření podporuje vícemozkové systémy, což je pro humanoidní složitost kritické. Protože jsme v tomto trendu tak brzy, stojí za to studovat návrhy lídrů v oboru a pochopit, proč fungují. Robotika je těžko uchopitelná vzhledem k vrstvám napříč hardwarem a softwarem, ale jakmile se naučíte rozebrat každou část po kousku, bude mnohem snazší ji strávit. Teď se to může zdát jako ztráta času, ale je to stejná metoda, která mi dala náskok během AI szn a proč jsem byl na začátku u tolika projektů. Staňte se disciplinovanými a naučte se, které komponenty mohou existovat společně a které ne. V nadcházejících měsících se to vyplatí. Deca biliony ( $CODEC ) kódováno.
7,54K