Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

Google DeepMind presenta Gemini Robotics 1.5, que permite a los robots percibir, planificar, pensar, usar herramientas y actuar en tareas complejas. El marco agencial comprende: ⦿ Gemini Robotics-ER 1.5 (VLM): Orquesta el razonamiento y la planificación incorporados de alto nivel. ⦿ Gemini Robotics 1.5 (VLA): Convierte las imágenes y las instrucciones proporcionadas por ER 1.5 en acciones.

El modelo VLA "piensa antes de actuar" utilizando un monólogo de lenguaje natural de varios niveles. Divide tareas como "clasificar la ropa por color" en pasos (por ejemplo, identificar colores, elegir artículos, detallar movimientos), mejorando la transparencia, la robustez y la adaptabilidad a nuevos escenarios.

Gemini Robotics 1.5 aprende de diversos conjuntos de datos en todas las realizaciones (ALOHA, Franka de dos brazos, humanoide Apolo), lo que permite la transferencia de habilidades sin disparo. Por ejemplo, las tareas entrenadas en un robot funcionan en otros, abordando la escasez de datos y mejorando la eficiencia.

Gemini Robotics-ER 1.5 establece un nuevo punto de referencia en el razonamiento encarnado, sobresaliendo en tareas espaciales, temporales y semánticas como señalar, estimar el progreso y planificar tareas. Proporciona un razonamiento encarnado de alto nivel, generalizando a un mundo abierto de objetos y escenas.

22.75K

Populares

Ranking

Favoritas