𝗜'𝘃𝗲 𝗵𝗲𝗮𝗿𝗱 𝘁𝗵𝗶𝘀 𝗮 𝗹𝗼𝘁 𝗿𝗲𝗰𝗲𝗻𝘁𝗹𝘆: "𝗪𝗲 𝘁𝗿𝗮𝗶𝗻𝗲𝗱 𝗼𝘂𝗿 𝗿𝗼𝗯𝗼𝘁 𝗼𝗻 𝗼𝗻𝗲 𝗼𝗯𝗷𝗲𝗰𝘁 𝗮𝗻𝗱 𝗶𝘁 𝗴𝗲𝗻𝗲𝗿𝗮𝗹𝗶𝘀𝗲𝗱 𝘁𝗼 𝗮 𝗻𝗼𝘃𝗲𝗹 𝗼𝗯𝗷𝗲𝗰𝘁 - 𝘁𝗵𝗲𝘀𝗲 𝗻𝗲𝘄 𝗩𝗟𝗔 𝗺𝗼𝗱𝗲𝗹𝘀 𝗮𝗿𝗲 𝗰𝗿𝗮𝘇𝘆!" Parliamo di cosa sta realmente accadendo in quella parte "A" (Azione) del tuo modello VLA. I componenti Vision e Language? Sono incredibili. Pre-addestrati su dati su scala internet, comprendono oggetti, relazioni spaziali e istruzioni di compito meglio che mai. Ma il componente Azione? Quello è ancora appreso da zero sulle tue specifiche dimostrazioni robotiche. 𝗛𝗲𝗿𝗲'𝘀 𝘁𝗵𝗲 𝗿𝗲𝗮𝗹𝗶𝘁𝘆: Il tuo modello VLA ha una comprensione su scala internet di come appare un cacciavite e di cosa significa "stringere la vite". Ma il reale schema motorio per "ruotare il polso mentre si applica pressione verso il basso"? Quello proviene dalle tue 500 dimostrazioni robotiche. 𝗪𝗵𝗮𝘁 𝘁𝗵𝗶𝘀 𝗺𝗲𝗮𝗻𝘀 𝗳𝗼𝗿 "𝗴𝗲𝗻𝗲𝗿𝗮𝗹𝗶𝘀𝗮𝘁𝗶𝗼𝗻":   • 𝗩𝗶𝘀𝗶𝗼𝗻 𝗴𝗲𝗻𝗲𝗿𝗮𝗹𝗶𝘀𝗮𝘁𝗶𝗼𝗻: Riconosce oggetti nuovi istantaneamente (grazie al pre-addestramento)   • 𝗟𝗮𝗻𝗴𝘂𝗮𝗴𝗲 𝗴𝗲𝗻𝗲𝗿𝗮𝗹𝗶𝘀𝗮𝘁𝗶𝗼𝗻: Comprende nuove istruzioni di compito (grazie al pre-addestramento)   • 𝗔𝗰𝘁𝗶𝗼𝗻 𝗴𝗲𝗻𝗲𝗿𝗮𝗹𝗶𝘀𝗮𝘁𝗶𝗼𝗻: Ancora limitato a schemi motori visti durante l'addestramento del robot Chiedi a quel robot di "svitare il tappo della bottiglia" e fallisce perché: • Vision: Riconosce bottiglia e tappo • Language: Comprende "svitare" • Action: Non ha mai appreso lo schema motorio "ruotare mentre si tira" 𝗧𝗵𝗲 𝗵𝗮𝗿𝗱 𝘁𝗿𝘂𝘁𝗵 𝗮𝗯𝗼𝘂𝘁 𝗩𝗟𝗔 𝗺𝗼𝗱𝗲𝗹𝘀: Il "VL" ti offre un'incredibile comprensione zero-shot. L'"A" richiede ancora dimostrazioni specifiche per il compito. Abbiamo risolto il problema della percezione e del ragionamento. Non abbiamo risolto il problema della generalizzazione motoria.
45,27K