Google ha estado promocionando su Proyecto Astra como la próxima generación de inteligencia artificial durante meses. Esto creó grandes expectativas cuando el programa 60 Minutes envió a Scott Pelley a probar las herramientas de Proyecto Astra proporcionadas por Google DeepMind. Pelley quedó impresionado con lo articulada, observadora y perspicaz que resultó ser la IA durante sus pruebas. Por ejemplo, no solo reconoció la pintura melancólica “Automat” de Edward Hopper, sino que también interpretó el lenguaje corporal de la mujer en la obra y creó una historia ficticia sobre su vida. Todo esto se logró a través de unas gafas inteligentes que apenas se diferencian de unas normales. Estas gafas funcionan como un sistema que permite a la IA ver, oír y entender el mundo que te rodea. Esto podría dar inicio a una nueva carrera de dispositivos portátiles inteligentes, pero es solo una de las muchas cosas que aprendimos sobre el Proyecto Astra y los planes de Google para la IA.
La comprensión de Astra es notable. Primero, el asistente de IA procesa continuamente video y audio de cámaras y micrófonos conectados a su entorno. No solo identifica objetos o transcribe texto; también puede detectar y explicar el tono emocional, extrapolar contexto y mantener una conversación sobre el tema, incluso cuando haces una pausa para pensar o hablas con otra persona. Durante la demostración, Pelley le preguntó a Astra qué estaba mirando. La IA identificó instantáneamente Coal Drops Yard, un complejo comercial en King’s Cross, y ofreció información de fondo sin titubear. Al mostrarle una pintura, no se limitó a decir “es una mujer en un café”, sino que comentó que parecía “contemplativa”. Y al ser presionada, le dio un nombre y una historia de fondo.
Según Demis Hassabis, CEO de DeepMind, la comprensión del mundo real por parte del asistente avanza más rápido de lo que esperaba, señalando que es mejor para entender el mundo físico de lo que los ingenieros pensaban en esta etapa.
Astra no solo observa pasivamente. DeepMind también ha estado enseñando a la IA a generar imágenes y videos fotorealistas. Los ingenieros explicaron que hace dos años, sus modelos de video tenían dificultades para entender que las patas estaban unidas a los perros. Ahora, mostraron cómo Veo 2 puede crear un perro volador con alas que aletean.
Las implicaciones para la narración visual, el cine, la publicidad y, sí, las gafas de realidad aumentada son profundas. Imagina que tus gafas no solo te dicen qué edificio estás mirando, sino que también visualizan cómo se veía hace un siglo, todo en alta definición y perfectamente integrado en la vista actual.
Por otro lado, está Genie 2, el nuevo sistema de modelado de mundos de DeepMind. Si Astra entiende el mundo tal como es, Genie crea mundos que no existen. Toma una imagen fija y la convierte en un entorno exploratorio visible a través de las gafas inteligentes. Al avanzar, Genie inventa lo que hay a la vuelta de la esquina. Al girar a la izquierda, llena las paredes invisibles. Durante la demostración, una foto de una cascada se transformó en un nivel de videojuego jugable, generado dinámicamente mientras Pelley exploraba.
DeepMind ya está utilizando los espacios generados por Genie para entrenar otras IA. Genie puede ayudar a estas a navegar por un mundo creado por otra IA, y en tiempo real. Un sistema sueña, otro aprende. Este tipo de bucle de simulación tiene enormes implicaciones para la robótica. En el mundo real, los robots deben aprender a través de prueba y error. Pero en un mundo sintético, pueden entrenar sin fin, sin romper muebles ni arriesgarse a demandas.
Google está tratando de llevar la percepción estilo Astra a tus manos (o a tu cara) lo más rápido posible, incluso si eso significa regalarla. Solo unas semanas después de lanzar las funciones de compartir pantalla y cámara en vivo de Gemini como un beneficio premium, dieron marcha atrás y las hicieron gratuitas para todos los usuarios de Android. Esto no fue un acto de generosidad al azar. Al hacer que tantas personas como sea posible apunten sus cámaras al mundo y conversen con Gemini, Google obtiene una gran cantidad de datos de entrenamiento y retroalimentación de usuarios en tiempo real.
Ya hay un pequeño grupo de personas usando gafas impulsadas por Astra en el mundo. Se dice que el hardware utiliza pantallas micro-LED para proyectar subtítulos en un ojo y entregar audio a través de pequeños altavoces direccionales cerca de las sienes. Comparado con el visor de ciencia ficción de las primeras Google Glass, esto se siente como un avance.
Claro, hay problemas con la privacidad, la latencia, la duración de la batería y la no tan pequeña pregunta de si la sociedad está lista para que las personas caminen con gafas semi-omniscientes sin ser objeto de burlas. Si Google puede hacer que esta magia se sienta ética, no invasiva y lo suficientemente estilosa como para convertirse en algo común, aún está por verse. Pero la idea de que 2025 sea el año en que las gafas inteligentes se vuelvan populares parece más precisa que nunca.


