Google DeepMind présente Gemini Robotics 1.5, permettant aux robots de percevoir, planifier, penser, utiliser des outils et agir sur des tâches complexes. Le cadre agentique comprend : ⦿ Gemini Robotics-ER 1.5 (VLM) : Orchestration du raisonnement et de la planification incarnés de haut niveau. ⦿ Gemini Robotics 1.5 (VLA) : Convertit les visuels et les instructions fournies par ER 1.5 en actions.
Le modèle VLA "réfléchit avant d'agir" en utilisant un monologue en langage naturel à plusieurs niveaux. Il décompose des tâches comme "trier le linge par couleur" en étapes (par exemple, identifier les couleurs, choisir les articles, détailler les mouvements), améliorant la transparence, la robustesse et l'adaptabilité à de nouveaux scénarios.
Gemini Robotics 1.5 apprend à partir de jeux de données diversifiés à travers des incarnations (ALOHA, bi-bras Franka, humanoïde Apollo), permettant un transfert de compétences sans spécialisation. Par exemple, les tâches entraînées sur un robot fonctionnent sur d'autres, abordant la rareté des données et améliorant l'efficacité.
Gemini Robotics-ER 1.5 établit une nouvelle référence en matière de raisonnement incarné, excelling dans des tâches spatiales, temporelles et sémantiques telles que le pointage, l'estimation de progrès et la planification de tâches. Il fournit un raisonnement incarné de haut niveau, se généralisant à un monde ouvert d'objets et de scènes.
25,63K