Google DeepMind ha lanzado un nuevo modelo de lenguaje llamado Gemini Robotics On-Device, que permite a los robots realizar tareas de forma local sin necesidad de conexión a internet. Este modelo se basa en el anterior Gemini Robotics, lanzado en marzo, y puede controlar los movimientos de los robots. Los desarrolladores pueden ajustar el modelo según sus necesidades utilizando comandos en lenguaje natural.
Según Google, este nuevo modelo tiene un rendimiento similar al del modelo Gemini Robotics basado en la nube y supera a otros modelos que funcionan de manera local, aunque no se mencionaron cuáles son. En una demostración, se mostró a los robots utilizando este modelo local para realizar tareas como abrir bolsas y doblar ropa. Google indicó que, aunque el modelo fue entrenado inicialmente para los robots ALOHA, luego se adaptó para funcionar en el robot bi-armado Franka FR3 y en el robot humanoide Apollo de Apptronik. La compañía afirma que el Franka FR3 pudo manejar situaciones y objetos que no había “visto” antes, como realizar ensamblajes en una línea industrial.
Además, Google DeepMind está lanzando un SDK de Gemini Robotics, lo que permitirá a los desarrolladores mostrar a los robots entre 50 y 100 demostraciones de tareas para entrenarlos en nuevas habilidades utilizando estos modelos en el simulador físico MuJoCo.
Otros desarrolladores de modelos de inteligencia artificial también están incursionando en la robótica. Nvidia está creando una plataforma para desarrollar modelos fundamentales para robots humanoides; Hugging Face no solo está desarrollando modelos y conjuntos de datos abiertos para robótica, sino que también está trabajando en robots; y la startup coreana RLWRLD, respaldada por Mirae Asset, está creando modelos fundamentales para robots.


