Un par de estudiantes universitarios, que no tienen mucha experiencia en inteligencia artificial, han creado un modelo de IA que puede generar clips de estilo podcast, similar a NotebookLM de Google. El mercado de herramientas de voz sintética es enorme y está en crecimiento. ElevenLabs es uno de los principales actores, pero hay muchos competidores como PlayAI y Sesame. Los inversores creen que estas herramientas tienen un gran potencial. Según PitchBook, las startups que desarrollan tecnología de voz AI recaudaron más de 398 millones de dólares en financiación el año pasado.
Toby Kim, uno de los cofundadores de Nari Labs, el grupo detrás del nuevo modelo, comentó que él y su compañero empezaron a aprender sobre IA de voz hace tres meses. Inspirados por NotebookLM, querían crear un modelo que ofreciera más control sobre las voces generadas y “libertad en el guion”. Kim mencionó que utilizaron el programa TPU Research Cloud de Google, que brinda acceso gratuito a los chips de IA de la compañía, para entrenar el modelo de Nari, llamado Dia. Con 1.6 mil millones de parámetros, Dia puede generar diálogos a partir de un guion, permitiendo a los usuarios personalizar los tonos de los hablantes e insertar interrupciones, tos, risas y otras señales no verbales.
Los parámetros son las variables internas que los modelos utilizan para hacer predicciones. Generalmente, los modelos con más parámetros tienen un mejor rendimiento. Dia está disponible en la plataforma de desarrollo de IA Hugging Face y GitHub, y puede funcionar en la mayoría de las computadoras modernas con al menos 10 GB de VRAM. Genera una voz aleatoria a menos que se le indique un estilo específico, pero también puede clonar la voz de una persona. En una breve prueba de Dia a través de la demostración web de Nari, funcionó bastante bien, generando conversaciones sobre cualquier tema sin problemas. La calidad de las voces parece ser competitiva con otras herramientas disponibles, y la función de clonación de voz es una de las más fáciles que este reportero ha probado.
Sin embargo, como muchos generadores de voz, Dia ofrece pocas medidas de seguridad. Sería muy fácil crear desinformación o grabaciones engañosas. En las páginas del proyecto de Dia, Nari desincentiva el uso indebido del modelo para impersonar, engañar o participar en campañas ilícitas, pero el grupo afirma que “no es responsable” por el mal uso. Nari tampoco ha revelado qué datos utilizó para entrenar a Dia. Es posible que Dia se haya desarrollado utilizando contenido protegido por derechos de autor; un comentarista en Hacker News señala que una muestra suena como los presentadores del podcast “Planet Money” de NPR. Entrenar modelos con contenido protegido es una práctica común pero legalmente cuestionable. Algunas empresas de IA afirman que el uso justo las protege de responsabilidades, mientras que los titulares de derechos sostienen que el uso justo no se aplica al entrenamiento.
De todos modos, Kim dice que el plan de Nari es crear una plataforma de voz sintética con un “aspecto social” sobre Dia y modelos más grandes en el futuro. Nari también tiene la intención de publicar un informe técnico sobre Dia y ampliar el soporte del modelo a idiomas más allá del inglés.


