Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Permiteți-mi să pictez imaginea.
Să spunem că vrei ca un umanoid să gătească o cină delicioasă în timp ce stai pe canapea și te uiți la Netflix.
Cum ar funcționa acest lucru la nivel tehnic, deoarece Umanoidul are nevoie de mai multe creiere pentru a-ți pregăti cina?
Inteligența robotului nu este monolitică, ci o echipă de module AI care combină deliberarea lentă cu reflexele rapide (design System 2 + System 1).
Modelul său viziune-limbaj-acțiune (VLA) împarte cogniția într-un modul de raționament și o politică de control reactiv.
Deoarece robotul rulează pe o arhitectură cognitivă multi-creier, ar pune în funcțiune un operator "bucătar" dedicat pentru a se ocupa de cererea dvs., cum ar fi supravegherea bucătăriei cu camerele sale, căutarea unei rețete, apoi direcționarea membrelor sale pentru a începe să taie legume.
Aceste creiere pot fi împărțite în următorii operatori.
Creierul #1:
Pentru a găti o cină delicioasă, aveți nevoie de un planificator executiv. Interpretează comanda ta ("pregătiți cina") pentru a determina scopul (faceți paste). Folosind înțelegerea limbajului natural, decide ce sarcini secundare sunt necesare (găsirea ingredientelor, gătirea pastelor, aranjarea mesei etc.) și ce alte creiere ar trebui să se ocupe de fiecare.
Acesta coordonează sistemul multi-agent: activarea modulelor specializate pentru vedere, cunoaștere și mișcare. Acest creier deliberativ (sistemul 2) ia decizii de nivel superior, stabilește abordarea și alocă responsabilități înainte de începerea oricăror mișcări fizice.
Creierul #2:
Acum că aveți rețeta, veți avea nevoie de niște ochi de robot și conștientizare spațială. Procesează fluxurile camerei pentru a identifica ingredientele, instrumentele și locațiile lor în bucătărie. Folosind viziunea avansată pe computer, vede tăietoarea, legumele din frigider, cuțitul de pe blat etc.
Construiește o hartă 3D a mediului și urmărește obiectele relevante (cum ar fi unde sunt sarea sau tigăile). Acest creier perceptual (Sistemul 2) funcționează mai lent decât reflexele, dar oferă un context precis pentru planificare. Prin recunoașterea tuturor pieselor implicate, educă robotul în lumea reală.
Creierul #3:
Acest creier acționează ca bază de cunoștințe și memorie a robotului (Sistemul 2). Preia și analizează informațiile necesare sarcinii, în acest caz, o rețetă adecvată și instrucțiuni de gătit. Ar putea interoga o carte de bucate online sau baza sa de date internă pentru o rețetă de paste, apoi să interpreteze pașii (fierbe apa, tocați usturoiul etc.).
Amintește de fapte despre bucătărie (cum ar fi locul în care sunt păstrate condimentele) și experiențele culinare din trecut. În esență, furnizarea de înțelegere semantică și cunoaștere a lumii. Apoi calculează instrucțiuni abstracte (caramelizați ceapa) în parametri concreți (temperatură, timp) pe care robotul îi poate executa, asigurându-vă că planul se aliniază cu preferințele dvs.
Creierul #4:
Cu scopul și mediul clarificate, am conceput un plan de joc detaliat. Ea împarte obiectivul de nivel înalt în acțiuni ordonate și pași condiționați. Programează sarcini (uneori în paralel, cum ar fi preîncălzirea cuptorului în timp ce tocați legumele) și stabilește repere (apă fiartă, sos gata).
De asemenea, urmărește progresul și poate re-planifica din mers dacă ceva se schimbă (să zicem că lipsește un ingredient). Apoi transmite această secvență de acțiune creierului la nivel de mișcare pentru execuție. Un alt creier al sistemului 2.
Creierul #5:
Este timpul să trecem de la arhitectura Sistemului 2 la Sistemul 1, transpunând planul în mișcări concrete ale roboților. Pentru fiecare acțiune (cum ar fi "mergeți la frigider" sau "tocați morcovii"), generează traiectorii aplicabile pentru corpul și membrele robotului.
Acest modul se ocupă de planificarea traseului și cinematica inversă, calculând căile și unghiurile îmbinărilor, astfel încât robotul să se deplaseze fără coliziuni. De obicei, aplică politici motorii învățate (cum ar fi o politică de transformator de difuzie) pentru a produce mișcări fluide pentru sarcini complexe.
Dacă Creierul 4 spune să recupereze o oală din frigider, Creierul 5 își dă seama cum să aducă robotul acolo și cum să apuce oala. Unde coordonează mai multe membre atunci când este necesar (folosind două mâini pentru a ridica o oală grea, de exemplu). Intenția la nivel înalt se transformă într-o convergență de hardware și software care se mișcă în mișcare
Creierul #6:
Odată ce un plan de mișcare este stabilit, este timpul să îl executați. Acest creier de control al sistemului 1 de nivel scăzut acționează actuatoarele robotului (motoare și articulații). Citește continuu senzorii (unghiuri articulare, forță, echilibru) și trimite semnale de control pentru a urmări traiectoria.
Folosind bucle de control (controlere PID, control predictiv al modelului etc.) pentru a menține precizia, dacă robotul începe să se întoarce sau un cuțit se abate de la curs, acesta se corectează instantaneu. Acestea sunt reflexele și abilitățile motorii fine care funcționează la viteze de milisecunde.
Pe măsură ce robotul taie un morcov, Brain 6 modulează forța și ajustează unghiul lamei pentru a obține felii uniforme fără a aluneca. Este ca "memoria musculară" subconștientă a sistemului, care gestionează automat detalii de nivel scăzut.
Creierul #7:
Ultima piesă se concentrează pe îmbunătățirea continuă. În timpul și după pregătirea cinei, analizează performanța. A vărsat ceva? A fost prea lent la agitare?
Acest modul folosește învățarea prin întărire și autocalibrarea pentru a actualiza modelele robotului în timp. Abilitățile de bază ale robotului au fost inițial antrenate pe demonstrații umane masive și încercări și erori, dar trebuie să le reglați continuu.
Dacă descoperă o tehnică mai eficientă de tăiere a cuburilor sau o prindere mai bună a spatulei, își actualizează politica astfel încât următoarea cină să decurgă și mai lin. Acest creier adaptiv permite umanoidului să devină mai priceput cu experiență.
Codec: Operatori în acțiune
Cum leagă arhitectura Codec aceste creiere împreună? Fiecare "creier" rulează ca un modul operator separat în sistemul AI al robotului. Orchestrarea Fabric a Codec-ului oferă fiecărui operator propriul mediu securizat, sandbox.
Adică, modulul de viziune, modulul de limbaj/logică, modulul de planificare etc., toate rulează izolat, dar comunică prin interfețe definite.
Dacă un modul se prăbușește sau are erori, nu va doborî întregul robot, celelalte continuă să funcționeze în siguranță. Acest design modular facilitează, de asemenea, actualizarea sau schimbarea unui creier fără a afecta restul și adăugarea de noi operatori specializați, după cum este necesar.
Această abordare a operatorului sprijină direct cadrul multi-creier. Când cereți cina, creierul executiv al robotului (Brain 1) poate pune în scenă un operator "bucătar" dedicat acelei sarcini, în timp ce alți operatori se ocupă de percepție și control în paralel.
Fiecare operator are acces doar la resursele de care are nevoie (de exemplu, agentul de rețetă poate avea acces la internet pentru a prelua instrucțiuni, în timp ce agentul de control interacționează doar cu hardware), ceea ce îmbunătățește siguranța.
Designul modular al codecului este lipiciul tuturor acestor abilități diverse care lucrează împreună, similar cu microserviciile din software, permițând umanoidului să gestioneze în mod fiabil sarcini complexe, cum ar fi gătitul cinei de la zero.
Acesta este motivul pentru care $CODEC va fi infrastructura principală pentru robotică.


23 aug., 18:30
Veți vedea modele de bază pentru umanoizi folosind continuu o arhitectură în stil System 2 + System 1, care este de fapt inspirată de cogniția umană.
Majoritatea modelelor de vedere-limbaj-acțiune (VLA) de astăzi sunt construite ca sisteme multimodale centralizate care gestionează percepția, limbajul și acțiunea într-o singură rețea.
Infrastructura Codec-ului este perfectă pentru acest lucru, deoarece tratează fiecare operator ca pe un modul sandbox. Ceea ce înseamnă că puteți porni mai mulți operatori în paralel, fiecare rulând propriul model sau sarcină, păstrându-i în același timp încapsulați și coordonați prin aceeași arhitectură.
Roboții și umanoizii în general au de obicei mai multe creiere, unde un operator se poate ocupa de procesarea viziunii, altul se poate ocupa de echilibrul vizual, altul de planificare la nivel înalt etc., toate acestea pot fi coordonate prin sistemul Codec.
Modelul de bază Nvidia Issac GR00T N1 folosește arhitectura cu două module System 2 + System 1. Sistemul 2 este un model de limbaj vizual (o versiune de PaLM sau similar, multimodal) care observă lumea prin camerele robotului și ascultă instrucțiunile, apoi face un plan la nivel înalt.
Sistemul 1 este o politică de transformare de difuzie care preia acel plan și îl transformă în mișcări continue în timp real. Vă puteți gândi la Sistemul 2 ca la creierul deliberativ și la Sistemul 1 ca la controlorul instinctual al corpului. Sistemul 2 ar putea scoate ceva de genul "mută-te în cupa roșie, apucă-o, apoi pune-o pe raft", iar Sistemul 1 va genera traiectoriile articulare detaliate pentru picioare și brațe pentru a executa fiecare pas fără probleme.
Sistemul 1 a fost antrenat pe tone de date de traiectorie (inclusiv demonstrații teleoperate umane și date simulate de fizică) pentru a stăpâni mișcările fine, în timp ce Sistemul 2 a fost construit pe un transformator cu preantrenament pe internet (pentru înțelegerea semantică).
Această separare a raționamentului față de acțiune este foarte puternică pentru NVIDIA. Înseamnă că GR00T poate gestiona sarcini cu orizont lung care necesită planificare (datorită Sistemului 2) și, de asemenea, poate reacționa instantaneu la perturbații (datorită Sistemului 1).
Dacă un robot poartă o tavă și cineva împinge tava, System 1 poate corecta echilibrul imediat, mai degrabă decât să aștepte ca System 2 să observe mai lent.
GR00T N1 a fost unul dintre primele modele de fundație robotică disponibile în mod deschis și a câștigat rapid teren.
Din cutie, a demonstrat abilități în multe sarcini în simulare, putea apuca și muta obiecte cu o mână sau două, putea mâna obiecte între mâini și efectua sarcini în mai mulți pași fără nicio programare specifică sarcinii. Deoarece nu era legat de o singură realizare, dezvoltatorii l-au arătat lucrând pe diferiți roboți cu ajustări minime.
Acest lucru este valabil și pentru Helix (modelul de bază al lui Figure) care folosește acest tip de arhitectură. Helix permite operarea a doi roboți sau a mai multor abilități, Codec ar putea permite un creier cu mai mulți agenți prin rularea mai multor operatori care împărtășesc informații.
Acest design "pod izolat" înseamnă că fiecare componentă poate fi specializată (la fel ca System 1 vs System 2) și chiar dezvoltată de echipe diferite, dar pot lucra împreună.
Este o abordare unică în sensul că Codec construiește o stivă software profundă pentru a susține această inteligență modulară, distribuită, în timp ce majoritatea celorlalte se concentrează doar pe modelul AI în sine.
Codecul folosește, de asemenea, modele mari pre-antrenate. Dacă construiți o aplicație robot pe el, puteți conecta un model de bază OpenVLA sau Pi Zero ca parte a operatorului dvs. Codecul oferă conectorii, accesul ușor la fluxurile camerei sau API-urile robotului, astfel încât să nu fie nevoie să scrieți codul de nivel scăzut pentru a obține imagini de la camera unui robot sau pentru a trimite comenzi de viteză către motoarele sale. Totul este abstract în spatele unui SDK de nivel înalt.
Unul dintre motivele pentru care sunt atât de optimist cu privire la Codec este exact ceea ce am subliniat mai sus. Ei nu urmăresc narațiuni, arhitectura este construită pentru a fi lipiciul dintre modelele de bază și susține fără fricțiuni sistemele multi-creier, ceea ce este esențial pentru complexitatea umanoidă.
Pentru că suntem atât de devreme în această tendință, merită să studiem proiectele liderilor din industrie și să înțelegem de ce funcționează. Robotica este greu de înțeles, având în vedere straturile hardware și software, dar odată ce înveți să descompui fiecare secțiune bucată cu bucată, devine mult mai ușor de digerat.
S-ar putea să pară o pierdere de timp acum, dar aceasta este aceeași metodă care mi-a dat un avans în timpul AI szn și de ce am fost devreme la atât de multe proiecte. Deveniți disciplinați și aflați ce componente pot coexista și care nu se scalează.
Va plăti dividende în lunile următoare.
Deca Trilioane ( $CODEC ) codificat.

7,55K
Limită superioară
Clasament
Favorite