Google DeepMind ha presentado Genie 3, su nuevo modelo de inteligencia artificial que representa un avance importante hacia la inteligencia general artificial, es decir, una inteligencia similar a la humana. Shlomi Fruchter, director de investigación en DeepMind, comentó que “Genie 3 es el primer modelo de mundo interactivo en tiempo real y de propósito general”. A diferencia de los modelos anteriores, Genie 3 no está limitado a un entorno específico. Puede crear mundos tanto fotorealistas como imaginarios.
Este modelo, que aún está en fase de investigación y no está disponible para el público, se basa en su predecesor, Genie 2, que generaba nuevos entornos, y en Veo 3, un modelo de generación de videos que muestra un profundo entendimiento de la física. Con un simple texto, Genie 3 puede generar múltiples minutos de entornos 3D interactivos a 24 cuadros por segundo y con una resolución de 720p, mucho más que los 10 a 20 segundos que ofrecía Genie 2. Además, tiene la capacidad de modificar el mundo generado a través de eventos que se pueden activar con un comando.
Una de las características más importantes de Genie 3 es que sus simulaciones mantienen una consistencia física a lo largo del tiempo, ya que el modelo recuerda lo que ha generado previamente. Esto es algo que los investigadores de DeepMind no programaron explícitamente. Fruchter explicó que Genie 3 tiene un gran potencial para mejorar experiencias educativas y medios generativos como los videojuegos, pero su verdadero impacto será en la capacitación de agentes para tareas generales, lo cual es esencial para alcanzar la inteligencia general artificial (AGI).
Genie 3 está diseñado para superar limitaciones en la simulación de escenarios del mundo real, lo que es especialmente complicado para agentes que interactúan en entornos compartidos. A diferencia de otros modelos, no depende de un motor de física predefinido, sino que aprende cómo funciona el mundo a través de la experiencia. Esto le permite desarrollar una comprensión intuitiva de la física, similar a cómo los humanos anticipan que un vaso al borde de una mesa va a caer.
Aunque actualmente las acciones que un agente puede realizar son limitadas y solo puede interactuar durante unos minutos, Genie 3 representa un avance significativo en la enseñanza de agentes para que no solo reaccionen a estímulos, sino que también planifiquen, exploren y aprendan de sus experiencias. Esto es fundamental para avanzar hacia una inteligencia general. Parker-Holder, un científico de investigación en DeepMind, mencionó que aún no hemos tenido un momento decisivo para los agentes embebidos, como el famoso movimiento 37 en el juego de Go entre AlphaGo y el campeón mundial Lee Sedol, pero con Genie 3, podríamos estar a punto de entrar en una nueva era.


