DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

Lasciami dipingere il quadro. Diciamo che vuoi un umanoide per cucinare una cena deliziosa mentre tu sei seduto sul divano a guardare Netflix. Come funzionerebbe a livello tecnico, dato che l'umanoide richiede diversi cervelli per preparare la tua cena? L'intelligenza del robot non è monolitica, ma è un team di moduli AI che combinano una lenta deliberazione con riflessi rapidi (design Sistema 2 + Sistema 1). Il suo modello di visione-linguaggio-azione (VLA) divide la cognizione in un modulo di ragionamento e una politica di controllo reattivo. Poiché il robot funziona su un'architettura cognitiva multi-cervello, attiverebbe un operatore "chef" dedicato per gestire la tua richiesta, come esaminare la cucina con le sue telecamere, cercare una ricetta e poi dirigere i suoi arti per iniziare a tagliare le verdure. Questi cervelli possono essere suddivisi nei seguenti operatori. Cervello #1: Per cucinare una cena deliziosa, hai bisogno di un pianificatore esecutivo. Interpreta il tuo comando ("prepara la cena") per determinare l'obiettivo (fare la pasta). Utilizzando la comprensione del linguaggio naturale, decide quali sotto-compiti sono necessari (trovare ingredienti, cucinare la pasta, apparecchiare la tavola, ecc.) e quali altri cervelli dovrebbero gestire ciascuno. Coordina il sistema multi-agente: attivando moduli specializzati per visione, conoscenza e movimento. Questo cervello deliberativo (sistema 2) prende decisioni di alto livello, delinea l'approccio e assegna responsabilità prima che inizino i movimenti fisici. Cervello #2: Ora che hai la ricetta, avrai bisogno di occhi robotici e consapevolezza spaziale. Elabora i feed delle telecamere per identificare ingredienti, strumenti e le loro posizioni in cucina. Utilizzando una visione artificiale avanzata, vede il tagliere, le verdure nel frigorifero, il coltello sul piano di lavoro, ecc. Costruisce una mappa 3D dell'ambiente e tiene traccia degli oggetti rilevanti (come dove si trovano il sale o le pentole). Questo cervello percettivo (Sistema 2) funziona più lentamente dei riflessi, ma fornisce un contesto accurato della scena per la pianificazione. Riconoscendo tutti i pezzi coinvolti, educa il robot nel mondo reale. Cervello #3: Questo cervello funge da base di conoscenza e memoria del robot (Sistema 2). Recupera e analizza le informazioni necessarie per il compito, in questo caso, una ricetta adatta e istruzioni di cottura. Potrebbe interrogare un ricettario online o il suo database interno per una ricetta di pasta, quindi interpretare i passaggi (far bollire l'acqua, tritare l'aglio, ecc.). Richiama fatti sulla cucina (come dove sono conservate le spezie) e esperienze di cottura passate. Fondamentalmente, fornisce comprensione semantica e conoscenza del mondo. Poi calcola istruzioni astratte (caramellare le cipolle) in parametri concreti (temperatura, tempi) che il robot può eseguire, assicurandosi che il piano sia in linea con le tue preferenze. Cervello #4: Con l'obiettivo e l'ambiente chiariti, abbiamo elaborato un piano dettagliato. Scompone l'obiettivo di alto livello in azioni ordinate e passaggi condizionali. Pianifica i compiti (a volte in parallelo, come preriscaldare il forno mentre si tagliano le verdure) e stabilisce traguardi (acqua bollita, salsa pronta). Tiene anche traccia dei progressi e può ripianificare al volo se qualcosa cambia (ad esempio, se un ingrediente è mancante). Poi passa questa sequenza di azioni ai cervelli di livello movimento per l'esecuzione. Un altro cervello del Sistema 2. Cervello #5: È tempo di passare dall'architettura del Sistema 2 al Sistema 1, traducendo il piano in movimenti robotici concreti. Per ogni azione (come "camminare verso il frigorifero" o "tagliare le carote"), genera traiettorie applicabili per il corpo e gli arti del robot. Questo modulo gestisce la pianificazione del percorso e la cinematica inversa, calcolando i percorsi e gli angoli delle articolazioni affinché il robot si muova senza collisioni. Di solito applica politiche motorie apprese (come una politica di diffusione trasformativa) per produrre movimenti fluidi per compiti complessi. Se il Cervello 4 dice di recuperare una pentola dal frigorifero, il Cervello 5 capisce come portare il robot lì e come afferrare la pentola. Dove coordina più arti quando necessario (usando entrambe le mani per sollevare una pentola pesante, ad esempio). L'intento di alto livello si traduce in una convergenza di hardware e software in movimento. Cervello #6: Una volta impostato un piano di movimento, è tempo di eseguire. Questo cervello di controllo di basso livello del Sistema 1 guida gli attuatori del robot (motori e articolazioni). Legge continuamente i sensori (angoli delle articolazioni, forza, equilibrio) e invia segnali di controllo per seguire la traiettoria. Utilizzando loop di controllo (controllori PID, controllo predittivo del modello, ecc.) per mantenere la precisione, se il robot inizia a inclinarsi o un coltello devia dal percorso, corregge istantaneamente. Questi sono i riflessi e le abilità motorie fini che operano a velocità millisecondo. Mentre il robot affetta una carota, il Cervello 6 modula la forza e regola l'angolo della lama per ottenere fette uniformi senza scivolare. È come la "memoria muscolare" subconscia del sistema, gestendo automaticamente i dettagli di basso livello. Cervello #7: L'ultimo pezzo si concentra sul miglioramento continuo. Durante e dopo la preparazione della cena, analizza le prestazioni. Ha rovesciato qualcosa? È stato troppo lento a mescolare? Questo modulo utilizza l'apprendimento per rinforzo e la calibrazione automatica per aggiornare i modelli del robot nel tempo. Le competenze fondamentali del robot sono state inizialmente addestrate su enormi dimostrazioni umane e prove ed errori, ma è necessario affinare continuamente queste competenze. Se scopre una tecnica di taglio più efficiente o una presa migliore per la spatola, aggiorna la sua politica affinché la prossima cena vada ancora più liscia. Questo cervello adattivo consente all'umanoide di diventare più abile con l'esperienza. Codec: Operatori in Azione Come si intrecciano le architetture di Codec con questi cervelli? Ogni "cervello" funziona come un modulo Operatore separato nel sistema AI del robot. L'orchestrazione di Fabric di Codec fornisce a ciascun operatore il proprio ambiente sicuro e isolato. Significa che il modulo di visione, il modulo linguistico/logico, il modulo di pianificazione, ecc., funzionano tutti in isolamento ma comunicano attraverso interfacce definite. Se un modulo si blocca o ha errori, non farà crollare l'intero robot, gli altri continueranno a funzionare in sicurezza. Questo design modulare rende anche facile aggiornare o sostituire un cervello senza influenzare il resto e aggiungere nuovi operatori specializzati secondo necessità. Questo approccio degli operatori supporta direttamente il framework multi-cervello. Quando richiedi la cena, il cervello esecutivo del robot (Cervello 1) può attivare un operatore "chef" dedicato a quel compito, mentre altri operatori gestiscono la percezione e il controllo in parallelo. Ogni operatore ha accesso solo alle risorse di cui ha bisogno (ad esempio, l'agente della ricetta potrebbe avere accesso a Internet per recuperare istruzioni, mentre l'agente di controllo interagisce solo con l'hardware), il che migliora la sicurezza. Il design modulare e isolato di Codec è la colla che tiene insieme tutte queste abilità diverse che lavorano insieme, simile ai microservizi nel software, consentendo all'umanoide di gestire in modo affidabile compiti complessi come cucinare la cena da zero. Ecco perché $CODEC sarà l'infrastruttura principale per la Robotica.

Vedrai modelli di base per i Humanoidi che utilizzano continuamente un'architettura in stile Sistema 2 + Sistema 1, ispirata alla cognizione umana. La maggior parte dei modelli visione-linguaggio-azione (VLA) di oggi sono costruiti come sistemi multimodali centralizzati che gestiscono percezione, linguaggio e azione all'interno di una singola rete. L'infrastruttura di Codec è perfetta per questo, poiché tratta ogni Operatore come un modulo isolato. Ciò significa che puoi avviare più Operatori in parallelo, ciascuno eseguendo il proprio modello o compito, mantenendoli incapsulati e coordinati attraverso la stessa architettura. I robot e i Humanoidi in generale hanno tipicamente più cervelli, dove un Operatore potrebbe gestire l'elaborazione visiva, un altro gestire l'equilibrio, un altro fare pianificazione ad alto livello, ecc., che possono tutti essere coordinati attraverso il sistema di Codec. Il modello di base di Nvidia Issac GR00T N1 utilizza l'architettura a due moduli Sistema 2 + Sistema 1. Il Sistema 2 è un modello visione-linguaggio (una versione di PaLM o simile, multimodale) che osserva il mondo attraverso le telecamere del robot e ascolta le istruzioni, quindi elabora un piano ad alto livello. Il Sistema 1 è una politica di diffusione trasformativa che prende quel piano e lo trasforma in movimenti continui in tempo reale. Puoi pensare al Sistema 2 come al cervello deliberativo e al Sistema 1 come al controllore corporeo istintivo. Il Sistema 2 potrebbe produrre qualcosa come "muoviti verso la tazza rossa, afferrala, poi posala sullo scaffale," e il Sistema 1 genererà le traiettorie articolari dettagliate per le gambe e le braccia per eseguire ogni passaggio in modo fluido. Il Sistema 1 è stato addestrato su tonnellate di dati di traiettoria (inclusi dimostrazioni teleoperate da umani e dati simulati fisicamente) per padroneggiare i movimenti fini, mentre il Sistema 2 è stato costruito su un trasformatore con pre-addestramento su internet (per la comprensione semantica). Questa separazione tra ragionamento e azione è molto potente per NVIDIA. Significa che GR00T può gestire compiti a lungo termine che richiedono pianificazione (grazie al Sistema 2) e anche reagire istantaneamente a perturbazioni (grazie al Sistema 1). Se un robot sta trasportando un vassoio e qualcuno lo spinge, il Sistema 1 può correggere immediatamente l'equilibrio invece di aspettare che il più lento Sistema 2 se ne accorga. GR00T N1 è stato uno dei primi modelli di base per la robotica disponibili pubblicamente, e ha rapidamente guadagnato trazione. Fuori dalla scatola, ha dimostrato abilità in molti compiti in simulazione, poteva afferrare e muovere oggetti con una mano o due, passare oggetti tra le sue mani e svolgere compiti a più fasi senza alcuna programmazione specifica per il compito. Poiché non era legato a un'unica incarnazione, gli sviluppatori hanno dimostrato che funzionava su diversi robot con minime modifiche. Questo è vero anche per Helix (il modello di base di Figure) che utilizza questo tipo di architettura. Helix consente a due robot o più abilità di operare, Codec potrebbe abilitare un cervello multi-agente eseguendo diversi Operatori che condividono informazioni. Questo design "isolato" significa che ogni componente può essere specializzato (proprio come il Sistema 1 rispetto al Sistema 2) e persino sviluppato da team diversi, eppure possono lavorare insieme. È un approccio unico nel senso che Codec sta costruendo lo stack software profondo per supportare questa intelligenza modulare e distribuita, mentre la maggior parte degli altri si concentra solo sul modello AI stesso. Codec sfrutta anche grandi modelli pre-addestrati. Se stai costruendo un'applicazione robotica su di esso, potresti collegare un modello di base OpenVLA o Pi Zero come parte del tuo Operatore. Codec fornisce i connettori, un facile accesso ai feed delle telecamere o alle API dei robot, quindi non devi scrivere il codice di basso livello per ottenere immagini dalla telecamera di un robot o per inviare comandi di velocità ai suoi motori. È tutto astratto dietro un SDK di alto livello. Uno dei motivi per cui sono così ottimista su Codec è esattamente ciò che ho delineato sopra. Non stanno inseguendo narrazioni, l'architettura è costruita per essere la colla tra i modelli di base, e supporta senza attriti sistemi multi-cervello, il che è critico per la complessità umanoide. Poiché siamo ancora all'inizio di questa tendenza, vale la pena studiare i design dei leader del settore e capire perché funzionano. La robotica è difficile da afferrare date le sovrapposizioni tra hardware e software, ma una volta che impari a scomporre ogni sezione pezzo per pezzo, diventa molto più facile da digerire. Potrebbe sembrare una perdita di tempo ora, ma questo è lo stesso metodo che mi ha dato un vantaggio durante la stagione AI e perché ero in anticipo su così tanti progetti. Diventa disciplinato e impara quali componenti possono coesistere e quali componenti non scalano. Ne trarrai vantaggi nei prossimi mesi. Deca Trillions ( $CODEC ) codificato.

7,54K

Principali

Ranking

Preferiti

On-chain di tendenza

Di tendenza su X

Principali fondi recenti

Più popolari