Pozwól, że namaluję obrazek. Powiedzmy, że chcesz, aby humanoid ugotował pyszny obiad, podczas gdy ty siedzisz na kanapie i oglądasz Netflix. Jak to by działało na poziomie technicznym, skoro humanoid wymaga kilku mózgów, aby przygotować twój obiad? Inteligencja robota nie jest monolityczna, lecz zespołem modułów AI łączących powolne rozważania z szybkimi reakcjami (projekt System 2 + System 1). Jego model wizji-języka-działania (VLA) dzieli poznanie na moduł rozumowania i reaktywną politykę kontrolną. Ponieważ robot działa na wielomózgowej architekturze poznawczej, uruchomi dedykowanego operatora "szefa kuchni", aby zrealizować twoje żądanie, na przykład przeszukując kuchnię za pomocą kamer, szukając przepisu, a następnie kierując swoimi kończynami, aby zacząć kroić warzywa. Te mózgi można podzielić na następujące operatory. Mózg #1: Aby ugotować pyszny obiad, potrzebujesz planisty wykonawczego. Interpretuje twoje polecenie ("przygotuj obiad"), aby określić cel (ugotować makaron). Używając zrozumienia języka naturalnego, decyduje, jakie podzadania są potrzebne (znaleźć składniki, ugotować makaron, nakryć do stołu itp.) i które inne mózgi powinny zająć się każdym z nich. Koordynuje system wieloagentowy: aktywując wyspecjalizowane moduły do wizji, wiedzy i ruchu. Ten deliberatywny mózg (system 2) podejmuje decyzje na najwyższym poziomie, określa podejście i przydziela odpowiedzialności, zanim jakiekolwiek ruchy fizyczne się rozpoczną. Mózg #2: Teraz, gdy masz przepis, potrzebujesz robotycznych oczu i świadomości przestrzennej. Przetwarza obrazy z kamer, aby zidentyfikować składniki, narzędzia i ich lokalizacje w kuchni. Używając zaawansowanej wizji komputerowej, widzi deskę do krojenia, warzywa w lodówce, nóż na blacie itp. Tworzy 3D mapę otoczenia i śledzi istotne obiekty (jak gdzie są sól lub patelnie). Ten percepcyjny mózg (System 2) działa wolniej niż reakcje, ale dostarcza dokładny kontekst sceny do planowania. Rozpoznając wszystkie zaangażowane elementy, edukuje robota w rzeczywistym świecie. Mózg #3: Ten mózg działa jako baza wiedzy i pamięci robota (System 2). Pobiera i analizuje informacje potrzebne do zadania, w tym przypadku odpowiedni przepis i instrukcje gotowania. Może zapytać o przepis na makaron w internetowej książce kucharskiej lub w swojej wewnętrznej bazie danych, a następnie zinterpretować kroki (ugotować wodę, pokroić czosnek itp.). Przypomina sobie fakty o kuchni (jak gdzie przechowywane są przyprawy) i wcześniejsze doświadczenia kulinarne. W zasadzie dostarcza zrozumienia semantycznego i wiedzy o świecie. Następnie przekształca abstrakcyjne instrukcje (skarmelizować cebulę) w konkretne parametry (temperatura, czas), które robot może wykonać, zapewniając, że plan jest zgodny z twoimi preferencjami. Mózg #4: Gdy cel i otoczenie są wyjaśnione, opracowaliśmy szczegółowy plan działania. Rozbija wysoki cel na uporządkowane działania i warunkowe kroki. Planowanie zadań (czasami równolegle, jak podgrzewanie piekarnika podczas krojenia warzyw) i ustalanie kamieni milowych (woda zagotowana, sos gotowy). Śledzi również postępy i może na bieżąco zmieniać plan, jeśli coś się zmieni (na przykład brakuje składnika). Następnie przekazuje tę sekwencję działań do mózgów na poziomie ruchu do wykonania. Kolejny mózg Systemu 2. Mózg #5: Czas przejść z architektury Systemu 2 do Systemu 1, przekształcając plan w konkretne ruchy robota. Dla każdej akcji (jak "idź do lodówki" lub "pokrój marchewki") generuje odpowiednie trajektorie dla ciała i kończyn robota. Ten moduł zajmuje się planowaniem ścieżek i kinematyką odwrotną, obliczając ścieżki i kąty stawów, aby robot poruszał się płynnie, bez kolizji. Zazwyczaj stosuje wyuczone polityki motoryczne (jak polityka transformatora dyfuzyjnego), aby uzyskać płynne ruchy w przypadku złożonych zadań. Jeśli Mózg 4 mówi, aby przynieść garnek z lodówki, Mózg 5 ustala, jak tam dotrzeć i jak chwycić garnek. Koordynuje wiele kończyn, gdy jest to potrzebne (używając dwóch rąk do podniesienia ciężkiego garnka na przykład). Wysoki poziom intencji przekształca się w zbieżność sprzętu i oprogramowania w ruchu. Mózg #6: Gdy plan ruchu jest ustalony, czas na wykonanie. Ten niski poziom mózg kontrolny Systemu 1 napędza aktuatory robota (silniki i stawy). Ciągle odczytuje czujniki (kąty stawów, siła, równowaga) i wysyła sygnały kontrolne, aby podążać za trajektorią. Używając pętli kontrolnych (kontrolery PID, kontrola predykcyjna modelu itp.) dla zachowania precyzji, jeśli robot zaczyna się przechylać lub nóż zbacza z kursu, natychmiast koryguje. To są reakcje i umiejętności motoryczne działające z prędkością milisekund. Gdy robot kroi marchewkę, Mózg 6 moduluje siłę i dostosowuje kąt ostrza, aby uzyskać jednolite plastry bez poślizgu. To jak podświadome "pamięć mięśniowa" systemu, automatycznie zajmujące się szczegółami na niskim poziomie. Mózg #7: Ostatni element koncentruje się na ciągłym doskonaleniu. Podczas i po przygotowaniu obiadu analizuje wydajność. Czy coś się rozlało? Czy było zbyt wolno przy mieszaniu? Ten moduł wykorzystuje uczenie przez wzmocnienie i samokalibrację, aby aktualizować modele robota w czasie. Podstawowe umiejętności robota były początkowo trenowane na ogromnych demonstracjach ludzkich i metodą prób i błędów, ale musisz je ciągle udoskonalać. Jeśli odkryje bardziej efektywną technikę krojenia lub lepszy chwyt łopatki, aktualizuje swoją politykę, aby następny obiad przebiegł jeszcze sprawniej. Ten adaptacyjny mózg pozwala humanoidowi stawać się coraz bardziej utalentowanym z doświadczeniem. Codec: Operatory w akcji Jak architektura Codec łączy te mózgi? Każdy "mózg" działa jako osobny moduł operatora w systemie AI robota. Orkiestracja Fabric Codec zapewnia każdemu operatorowi jego własne bezpieczne, odizolowane środowisko. Oznacza to, że moduł wizji, moduł językowy/logiczny, moduł planowania itp. działają w izolacji, ale komunikują się przez zdefiniowane interfejsy. Jeśli jeden moduł ulegnie awarii lub wystąpią błędy, nie zburzy to całego robota, inne będą działać bezpiecznie. Ten modułowy projekt ułatwia również aktualizację lub wymianę jednego mózgu bez wpływu na resztę oraz dodawanie nowych wyspecjalizowanych operatorów w razie potrzeby. To podejście operatora bezpośrednio wspiera ramy wielomózgowe. Gdy prosisz o obiad, wykonawczy mózg robota (Mózg 1) może uruchomić dedykowanego operatora "szefa kuchni" do tego zadania, podczas gdy inne operatory zajmują się percepcją i kontrolą równolegle. Każdy operator ma dostęp tylko do zasobów, których potrzebuje (na przykład agent przepisu może mieć dostęp do internetu, aby pobrać instrukcje, podczas gdy agent kontrolny tylko łączy się ze sprzętem), co poprawia bezpieczeństwo. Modularny, odizolowany projekt Codec jest spoiwem dla wszystkich tych różnorodnych umiejętności działających razem, podobnie jak mikroserwisy w oprogramowaniu, umożliwiając humanoidowi niezawodne radzenie sobie z złożonymi zadaniami, takimi jak gotowanie obiadu od podstaw. Dlatego $CODEC będzie główną infrastrukturą dla robotyki.
Trissy
Trissy23 sie, 18:30
Zobaczysz modele podstawowe dla Humanoids, które nieustannie wykorzystują architekturę stylu System 2 + System 1, inspirowaną ludzką kognicją. Większość modeli wizji-języka-akcji (VLA) dzisiaj jest budowana jako scentralizowane systemy multimodalne, które obsługują percepcję, język i działanie w ramach jednej sieci. Infrastruktura Codec jest idealna do tego, ponieważ traktuje każdego Operatora jako moduł w piaskownicy. Oznacza to, że możesz uruchomić wiele Operatorów równolegle, z każdym działającym na swoim własnym modelu lub zadaniu, jednocześnie utrzymując je zamknięte i skoordynowane przez tę samą architekturę. Roboty i Humanoidy w ogóle zazwyczaj mają wiele mózgów, gdzie jeden Operator może obsługiwać przetwarzanie wizji, inny równowagę, a jeszcze inny zajmować się planowaniem na wysokim poziomie itd., co można koordynować przez system Codec. Model podstawowy Nvidia Issac GR00T N1 wykorzystuje architekturę dwóch modułów System 2 + System 1. System 2 to model wizji-języka (wersja PaLM lub podobna, multimodalna), który obserwuje świat przez kamery robota i słucha instrukcji, a następnie tworzy plan na wysokim poziomie. System 1 to polityka transformatora dyfuzji, która przyjmuje ten plan i przekształca go w ciągłe ruchy w czasie rzeczywistym. Możesz myśleć o Systemie 2 jako o rozważającym mózgu, a o Systemie 1 jako o instynktownym kontrolerze ciała. System 2 może wyjść z czymś w stylu „przenieś się do czerwonego kubka, chwyć go, a następnie umieść go na półce”, a System 1 wygeneruje szczegółowe trajektorie stawów dla nóg i rąk, aby płynnie wykonać każdy krok. System 1 był trenowany na ogromnych zbiorach danych trajektorii (w tym na danych zdalnie sterowanych przez ludzi i symulowanych danych fizycznych), aby opanować precyzyjne ruchy, podczas gdy System 2 został zbudowany na transformatorze z wstępnym treningiem w Internecie (dla zrozumienia semantycznego). To rozdzielenie rozumowania i działania jest bardzo potężne dla NVIDIA. Oznacza to, że GR00T może obsługiwać długoterminowe zadania wymagające planowania (dzięki Systemowi 2) i również natychmiast reagować na zakłócenia (dzięki Systemowi 1). Jeśli robot niesie tacę i ktoś ją szturcha, System 1 może natychmiast skorygować równowagę, zamiast czekać, aż wolniejszy System 2 to zauważy. GR00T N1 był jednym z pierwszych otwarcie dostępnych modeli podstawowych w robotyce i szybko zyskał popularność. Z pudełka wykazał umiejętności w wielu zadaniach w symulacji, mógł chwytać i przenosić obiekty jedną lub dwiema rękami, przekazywać przedmioty między swoimi rękami i wykonywać wieloetapowe zadania bez żadnego programowania specyficznego dla zadania. Ponieważ nie był związany z jedną konkretną formą, deweloperzy pokazali, że działa na różnych robotach z minimalnymi dostosowaniami. To samo dotyczy Helix (modelu podstawowego Figure), który wykorzystuje ten typ architektury. Helix pozwala na działanie dwóch robotów lub wielu umiejętności, Codec mógłby umożliwić mózg wieloagentowy, uruchamiając kilka Operatorów, które dzielą się informacjami. Ten projekt „izolowanego modułu” oznacza, że każdy komponent może być wyspecjalizowany (tak jak System 1 vs System 2) i nawet rozwijany przez różne zespoły, a mimo to mogą współpracować. To unikalne podejście w tym sensie, że Codec buduje głęboki stos oprogramowania, aby wspierać tę modułową, rozproszoną inteligencję, podczas gdy większość innych koncentruje się tylko na samym modelu AI. Codec wykorzystuje również duże modele wstępnie wytrenowane. Jeśli budujesz aplikację robota na tym, możesz podłączyć model podstawowy OpenVLA lub Pi Zero jako część swojego Operatora. Codec zapewnia złącza, łatwy dostęp do strumieni kamer lub API robotów, więc nie musisz pisać niskopoziomowego kodu, aby uzyskać obrazy z kamery robota lub wysłać polecenia prędkości do jego silników. Wszystko to jest abstrakcyjne za pomocą wysokopoziomowego SDK. Jednym z powodów, dla których jestem tak optymistyczny co do Codec, jest dokładnie to, co opisałem powyżej. Nie gonią za narracjami, architektura jest zbudowana, aby być spoiwem między modelami podstawowymi, a bezproblemowo wspiera systemy wielomózgowe, co jest kluczowe dla złożoności humanoidów. Ponieważ jesteśmy na początku tego trendu, warto badać projekty liderów branży i zrozumieć, dlaczego działają. Robotyka jest trudna do zrozumienia, biorąc pod uwagę warstwy sprzętu i oprogramowania, ale gdy nauczysz się rozbijać każdą sekcję na kawałki, staje się znacznie łatwiejsza do przyswojenia. Może teraz wydawać się to stratą czasu, ale to ta sama metoda, która dała mi przewagę podczas AI szn i dlaczego byłem wcześnie w tak wielu projektach. Stań się zdyscyplinowany i naucz się, które komponenty mogą współistnieć, a które komponenty nie skalują się. To przyniesie korzyści w nadchodzących miesiącach. Deca Trillions ( $CODEC ) kodowane.
7,54K