Google DeepMind presenta Gemini Robotics 1.5, che consente ai robot di percepire, pianificare, pensare, utilizzare strumenti e agire su compiti complessi. Il framework agentico comprende: ⦿ Gemini Robotics-ER 1.5 (VLM): Orchestra il ragionamento e la pianificazione incarnati di alto livello. ⦿ Gemini Robotics 1.5 (VLA): Converte le immagini e le istruzioni fornite da ER 1.5 in azioni.
Il modello VLA "pensa prima di agire" utilizzando un monologo in linguaggio naturale a più livelli. Scompone compiti come "separare il bucato per colore" in passaggi (ad esempio, identificare i colori, scegliere gli oggetti, dettagliare i movimenti), migliorando la trasparenza, la robustezza e l'adattabilità a nuovi scenari.
Gemini Robotics 1.5 apprende da dataset diversificati attraverso le incarnazioni (ALOHA, bi-arm Franka, Apollo umanoide), consentendo il trasferimento di abilità zero-shot senza specializzazione. Ad esempio, i compiti addestrati su un robot funzionano su altri, affrontando la scarsità di dati e migliorando l'efficienza.
Gemini Robotics-ER 1.5 stabilisce un nuovo standard nel ragionamento incarnato, eccellendo in compiti spaziali, temporali e semantici come puntamento, stima dei progressi e pianificazione delle attività. Fornisce un ragionamento incarnato di alto livello, generalizzando a un mondo aperto di oggetti e scene.
19,25K