Las voces de inteligencia artificial (IA) suelen ser amigables y realistas, imitando a personas relajadas y felices. Sin embargo, un nuevo modelo de código abierto llamado Dia se adentra en un espectro emocional más amplio, incluyendo gritos intensos. Los creadores de Dia, un pequeño grupo en Nari Labs, han desarrollado voces de IA que pueden sonar como un intérprete algo melodramático, capaz de reír, toser, aclararse la garganta, sonarse la nariz y, sí, gritar de manera realista.
Puede que no pienses que gritar sea un gran avance para la IA, pero hacerlo de manera convincente es complicado. No se trata solo de hablar más alto; es un modo de expresión completamente diferente. La mayoría de los modelos de voz de IA carecen de esta expresión emocional. Es fácil para un modelo leer un cuento para dormir, pero es mucho más difícil que suene como si intentara calmar a un amigo o como si acabara de ver algo impactante.
Dia considera la comunicación no verbal como parte de su actuación. Sabe que un “(tos)” no debe ser ignorado ni leído literalmente. Reconoce que un grito no es solo una línea más fuerte y lo realiza con un nivel de sincronización, modulación de tono y control de la respiración que lo hace sentir más auténtico. Un usuario ingenioso incluso utilizó Dia para recrear un famoso sketch de Leroy Jenkins en World of Warcraft.
Aunque OpenAI, ElevenLabs, Google y Sesame han producido modelos de voz de IA impresionantes, Dia se destaca en su capacidad para expresar emociones de manera más auténtica. OpenAI permite personalizar su modo de voz avanzado para hablar con diferentes emociones, y ElevenLabs es bueno interpretando la capitalización y la puntuación para ajustar el habla, pero eso no se compara con gritar de sorpresa o reírse a carcajadas.
Lo que hace que esta historia sea más relevante que simplemente “una voz de IA aprende un truco” es lo que significa para la carrera más amplia de la IA en inteligencia emocional. Estamos entrando rápidamente en una era donde no será suficiente que tu asistente diga lo correcto; también necesitará decirlo de la manera correcta. Imagina bots de atención al cliente que suenen genuinamente apenados, maestros que suenen alentadores en lugar de instructivos, y personajes de videojuegos que transmitan sinceridad.
Sin embargo, dar a la IA la capacidad de expresar emociones de manera convincente la hace más persuasiva y, por lo tanto, potencialmente más manipuladora. Si el habla emocional puede ser solo otra herramienta de la IA, muchas personas podrían sentirse tentadas a gritar también. Aún así, puedo imaginar lo divertido que sería escribir una historia de fantasmas para que Dia no solo la lea, sino que la interprete, con gritos y todo.


