Estamos a tornar os robôs mais capazes do que nunca no mundo físico. 🤖 O Gemini Robotics 1.5 é um sistema agencial melhorado que pode raciocinar melhor, planear com antecedência, usar ferramentas digitais como a @Google Search, interagir com humanos e muito mais. Aqui está como funciona 🧵
Muitas das nossas atividades diárias exigem muitos passos para serem concluídas e podem ser extremamente desafiadoras para os robôs. Imagine perguntar: “Com base na minha localização, consegues classificar estes objetos nos contentores corretos de compostagem, reciclagem e lixo?” 🗑️ O robô tem que pesquisar na web as diretrizes locais, olhar para os objetos, descobrir como classificá-los e, em seguida, completar a tarefa. ↓
Para lidar com esses pedidos, o Gemini Robotics 1.5 pode alimentar novas aplicações agentivas com dois modelos de IA principais trabalhando juntos: 🔹Gemini Robotics-ER 1.5: Este atua como o cérebro de alto nível, interagindo com as pessoas, entendendo seu ambiente, orquestrando ferramentas e criando um plano detalhado para realizar uma tarefa. 🔹Gemini Robotics 1.5: Este é responsável pela execução, traduzindo instruções em comandos motores precisos necessários para o robô se mover e agir de forma geral.
O Gemini Robotics-ER 1.5 é o primeiro modelo de pensamento otimizado para raciocínio incorporado, e alcança um desempenho de ponta em benchmarks acadêmicos e internos. 🧠 A sua compreensão do mundo real torna-o um orquestrador de alto nível perfeito para robôs. Veja como ele lida com a organização de uma mesa ocupada ↓
Tradicionalmente, os modelos VLA traduzem instruções diretamente em movimento robótico. 🦾 A Gemini Robotics 1.5 agora pode pensar antes de agir, gerando uma sequência interna de raciocínio usando linguagem natural. Isso torna as ações do robô mais interpretáveis e desbloqueia tarefas mais úteis - como organizar a roupa por cor. ↓
O que acontece quando dizes ao robô para "fazer as malas para a minha viagem a Londres"? 🧳 Ele pode verificar o tempo, pensar no que levar, onde arranjar as coisas e como as arrumar. Neste processo, o modelo pode dividir tarefas longas em tarefas mais simples e ser adaptável a mudanças no seu ambiente. ↓
Os robôs vêm em todas as formas e tamanhos, com diferentes formatos, sensores e graus de liberdade. 💡 O Gemini Robotics 1.5 pode aprender através de várias manifestações e pode transferir o conhecimento adquirido de um robô para outro sem precisar se especializar.
Estamos agora a avançar para além de modelos que reagem a instruções únicas e a criar sistemas que podem realmente enfrentar problemas de uma forma geral - no caminho para resolver a AGI no mundo físico. Os desenvolvedores agora podem usar o Gemini Robotics-ER 1.5 através da API Gemini no @GoogleAIStudio. Saiba mais →
318,64K