El miércoles, Google lanzó actualizaciones para varios de sus modelos de inteligencia artificial que generan medios, disponibles a través de su plataforma en la nube Vertex AI. Lyria, el modelo de Google que convierte texto en música, ahora está disponible en versión de prueba para algunos clientes seleccionados. Además, el modelo Veo 2, que crea videos, ha mejorado con nuevas opciones de edición y efectos visuales personalizables. La compañía también ha introducido una función de clonación de voz, impulsada por Chirp 3, su modelo de comprensión de audio, para usuarios autorizados. Por otro lado, el generador de imágenes Imagen 3 ahora ofrece un rendimiento “significativamente” mejorado.
Estas actualizaciones coinciden con el evento Cloud Next y son parte del esfuerzo de Google por dominar el mercado empresarial de la inteligencia artificial generativa. Google compite directamente con Amazon, que tiene una plataforma de inteligencia artificial en la nube llamada Bedrock, con sus propios modelos generativos.
Google presenta a Lyria como una alternativa a las bibliotecas de música libres de regalías. Con este modelo, los clientes pueden crear canciones en una variedad de estilos y géneros, desde solos de piano jazz hasta pistas lo-fi. Chirp 3, por su parte, puede sintetizar voz en aproximadamente 35 idiomas. Este modelo, que se presentó por primera vez a principios de este año, impulsa la función Instant Custom Voice, que puede clonar una voz a partir de 10 segundos de audio y ahora está disponible para todos. También se lanza una nueva herramienta en versión de prueba llamada Transcripción con Diarización, que separa e identifica a los hablantes en grabaciones con múltiples participantes. Para evitar abusos, Instant Custom Voice está sujeta a un proceso de “diligencia” para verificar los “permisos adecuados de uso de voz”, según Google.
En cuanto a Veo 2, el modelo ahora puede eliminar imágenes de fondo, logotipos y objetos de videos existentes, y extender el marco de las grabaciones (por ejemplo, convertir un video en paisaje a retrato). También puede ajustar los ángulos de cámara y el ritmo en escenas generadas por IA para crear timelapses, clips estilo dron y más, además de poder interpolar entre fotogramas de inicio y fin especificados. Estas características de Veo están disponibles en versión de prueba por ahora.
Respecto a las mejoras de Imagen 3, Google indicó que mejoran la capacidad del modelo para eliminar objetos y reconstruir partes faltantes o dañadas de las imágenes. Todos los medios generados por Imagen, Veo y Lyria (excepto Chirp) están marcados con la tecnología SynthID de Google. La compañía aseguró que todos sus modelos de inteligencia artificial generativa tienen “salvaguardias integradas” para proteger contra la creación de contenido dañino.
Google no ha indicado históricamente qué datos específicos utiliza para entrenar sus modelos, y hoy mantuvo esa línea. Los datos de entrenamiento suelen ser un tema controvertido por razones de propiedad intelectual. Algunas empresas entrenan sus modelos con obras protegidas por derechos de autor sin obtener primero el permiso de los titulares de derechos. Aunque estas empresas afirman que la doctrina de uso justo en EE. UU. protege esta práctica, algunos creadores están en desacuerdo y muchos están enfrentando a los proveedores en los tribunales. Google ha dicho anteriormente que ofrece mecanismos de exclusión para el entrenamiento de modelos, así como una política de indemnización para proteger a los clientes de Google Cloud y Vertex AI de disputas de derechos de autor relacionadas con la inteligencia artificial.


