Google ha presentado una importante actualización en su modelo de generación de videos, llamado Veo 3. Este nuevo modelo, anunciado en Google I/O 2025, puede combinar audio y video en sus producciones, algo que otros modelos de inteligencia artificial, como Sora y Pika, no pueden hacer al mismo tiempo.
Veo 3 es la tercera generación del potente modelo Gemini y, con las instrucciones adecuadas, puede crear videos que incluyen efectos de sonido, ruidos de fondo y diálogos. Durante la presentación, Google mostró un clip animado en el que unos animales conversaban en un bosque, con el sonido perfectamente sincronizado con el video.
Este avance podría marcar un punto de inflexión en la generación de contenido mediante inteligencia artificial. Demis Hassabis, CEO de Google DeepMind, comentó que estamos saliendo de la “era silenciosa” de la generación de videos. Hasta ahora, ningún otro modelo de IA ha podido ofrecer audio sincronizado junto con el video.
Aunque aún no se sabe si Veo 3 supera a Sora en calidad de video, su capacidad para producir clips que parecen completamente terminados, con video y audio, podría hacer que Veo sea una plataforma más atractiva. Además de manejar diálogos, Veo 3 puede generar ruidos de fondo y efectos de sonido, lo que normalmente requiere semanas de trabajo por parte de artistas de Foley.
Google sugiere que los usuarios cuenten una breve historia en sus instrucciones y Veo 3 devolverá un clip que la represente. Si este modelo puede seguir instrucciones y generar minutos, o incluso horas, de video y audio consistentes, pronto podríamos ver la primera película animada creada completamente con Veo.
Veo 3 ya está disponible en EE. UU. como parte del nuevo plan Ultra, que cuesta $249.99 al mes, y también se incluye en la nueva herramienta Flow. Además, Google ha anunciado actualizaciones para su modelo Veo 2, que ahora puede generar videos basados en objetos de referencia que se proporcionen, controlar la cámara, convertir de retrato a paisaje y añadir o eliminar objetos.


