Hasta ahora, gran parte de la atención en la inteligencia artificial generativa se ha centrado en interfaces basadas en texto para generar texto, imágenes y más. Sin embargo, la próxima tendencia parece ser la voz, y está avanzando rápidamente. Hoy, Google anunció que añadirá Chirp 3, su interfaz de voz en alta definición, a su plataforma de desarrollo Vertex AI a partir de la próxima semana. La semana pasada, Google también reveló que Chirp 3 lanzará 8 nuevas voces en 31 idiomas. Las aplicaciones de esta plataforma incluyen la creación de asistentes de voz, audiolibros, agentes de soporte y locuciones para videos.
La noticia se dio a conocer en un evento en las oficinas de DeepMind de Google en Londres. Este avance se produce al mismo tiempo que otras empresas también están avanzando en el campo de la inteligencia artificial de voz. La semana pasada, Sesame, la startup detrás de las populares aplicaciones de IA “Maya” y “Miles”, anunció el lanzamiento de su modelo para que los desarrolladores creen sus propias aplicaciones y servicios personalizados. Es importante mencionar que habrá restricciones de uso en Chirp 3 para evitar abusos. Thomas Kurian, CEO de Google Cloud, comentó en un evento que están trabajando en estos aspectos con su equipo de seguridad.
ElevenLabs es otra de las startups importantes que ha recaudado cientos de millones en financiación para expandir sus servicios de voz en IA. La llegada de Chirp 3 se alinea con las nuevas versiones de su modelo de lenguaje, Gemini, que están siendo probadas, así como con su modelo de generación de imágenes, Imagen, y su costosa herramienta de generación de videos, Veo 2.
Es discutible si lo que Google lanzará con Chirp 3 será tan “realista” como otros esfuerzos de IA para crear voces “humanas”, destacando particularmente el trabajo de Sesame. Sin embargo, como enfatizó Demis Hassabis, CEO de DeepMind, esto es un maratón, no una carrera rápida. “En el corto plazo… no veo que la IA sea una solución mágica para todo en los próximos años. Creo que todavía estamos a varios años de algo como la IA general (AGI)”, dijo. “Va a cambiar las cosas… en la próxima década, así que a mediano y largo plazo, es un momento interesante”.
Google lanzó Vertex AI en 2021 como una plataforma para que los desarrolladores construyan servicios de aprendizaje automático en la nube, mucho antes del gran interés en la IA generativa que surgió con el lanzamiento de los servicios GPT de OpenAI. Desde entonces, la compañía ha estado enfocándose en Vertex AI, en parte para ponerse al día con otras empresas como Microsoft y Amazon que están desarrollando herramientas de IA generativa para desarrolladores. Además de construir IA generativa sobre Gemini, los desarrolladores pueden usar Vertex AI para clasificar datos, entrenar modelos y preparar modelos para producción. Será interesante ver si Google expande su ecosistema a modelos más allá de los creados por ellos mismos. Google ha estado desarrollando servicios de voz “Chirp” durante años, comenzando con este nombre como un código para sus primeros esfuerzos para competir con el servicio Alexa de Amazon.


