Gemini Robotics es un nuevo modelo de inteligencia artificial que se centra en el mundo físico y será utilizado por robots. Este modelo es visual, interactivo y general. Google Gemini es muy bueno en tareas que ocurren dentro de una pantalla, como generar texto e imágenes. Sin embargo, el último modelo, Google Robotics, lleva la inteligencia artificial generativa al mundo físico y podría acelerar significativamente el desarrollo de robots humanoides.
Gemini Robotics, presentado por DeepMind de Google, mejora las capacidades de Gemini en tres áreas clave: destreza, interactividad y generalización. Cada uno de estos aspectos impacta de manera importante el éxito de la robótica en entornos laborales y desconocidos.
La generalización permite que un robot use el vasto conocimiento de Gemini sobre el mundo y lo aplique a nuevas situaciones, logrando tareas para las que no ha sido entrenado. En un video, los investigadores muestran un par de brazos robóticos controlados por Gemini Robotics que juegan un juego de baloncesto de mesa. Se les pide que “hagan una clavada” y, aunque el robot no había visto el juego antes, logra tomar la pelota y encestarla.
Además, Gemini Robotics hace que los robots sean más interactivos, permitiéndoles responder no solo a instrucciones verbales cambiantes, sino también a condiciones imprevistas. En otro video, se le pide al robot que coloque uvas en un tazón con plátanos, y aunque el tazón se mueve, el brazo robótico se ajusta y logra colocar las uvas correctamente.
Google también demostró las habilidades de destreza del robot, que le permiten realizar tareas como jugar al tres en raya en una tabla de madera, borrar una pizarra y hacer origami. En lugar de requerir horas de entrenamiento para cada tarea, los robots responden a instrucciones en lenguaje natural y realizan las tareas sin necesidad de guía, lo cual es impresionante de ver.
La incorporación de inteligencia artificial en la robótica no es algo nuevo. El año pasado, OpenAI se unió a Figure AI para desarrollar un robot humanoide que puede realizar tareas basadas en instrucciones verbales. Al igual que Gemini Robotics, el modelo de lenguaje visual de Figure 01 trabaja con el modelo de voz de OpenAI para mantener conversaciones sobre tareas y prioridades cambiantes.
En la demostración, el robot humanoide se encuentra frente a platos y un escurridor. Se le pregunta qué ve, y lo enumera, pero luego se le cambia la tarea y se le pide algo para comer. Sin dudar, el robot toma una manzana y se la entrega.
Aunque la mayoría de lo que Google mostró en los videos fueron brazos y manos robóticas realizando una amplia gama de tareas físicas, hay planes más ambiciosos. Google se está asociando con Apptroniks para integrar el nuevo modelo en su robot humanoide Apollo. Además, se conectará con un nuevo modelo de lenguaje visual avanzado llamado Gemini Robotics-ER (razonamiento incorporado).
Gemini Robotics-ER mejorará el razonamiento espacial de los robots y debería ayudar a los desarrolladores a conectar los modelos con controladores existentes. Esto mejorará el razonamiento en tiempo real y permitirá a los robots aprender rápidamente a manejar objetos desconocidos. Google describe Gemini Robotics-ER como una solución integral que “puede realizar todos los pasos necesarios para controlar un robot desde el primer momento, incluyendo percepción, estimación de estado, comprensión espacial, planificación y generación de código”.
Google está proporcionando el modelo Gemini Robotics-ER a varias empresas de robótica enfocadas en negocios e investigación, incluyendo a Boston Dynamics (creadores de Atlas), Agile Robots y Agility Robots. En resumen, esto representa una gran oportunidad para los desarrolladores de robótica humanoide. Sin embargo, dado que la mayoría de estos robots están diseñados para fábricas o aún están en laboratorio, puede pasar un tiempo antes de que veas un robot mejorado con Gemini en tu hogar.


