"Moshi: el asistente de voz de IA que está revolucionando la comunicación humana con su capacidad de hablar en múltiples acentos y estilos emocionales"

July 5, 2024 / Pablo

“Moshi: el asistente de voz de IA que está revolucionando la comunicación humana con su capacidad de hablar en múltiples acentos y estilos emocionales”

OpenAI retrasó el lanzamiento del Modo de Voz de ChatGPT, lo que molestó a muchos fanáticos del chatbot de IA. Sin embargo, ahora podría haber sido superado. El desarrollador francés de inteligencia artificial Kyutai ha presentado un asistente de voz en tiempo real llamado Moshi. Moshi está diseñado para mantener conversaciones realistas con los usuarios a través de la voz, similar a Alexa o Google Assistant, pero está impulsado por los grandes modelos de lenguaje que sustentan a ChatGPT y sus rivales, en este caso, el modelo Helium 7B.

Según Kyutai, Moshi puede hablar en varios acentos y tiene 70 estilos emocionales y de habla diferentes. La IA incluso puede manejar dos flujos de audio simultáneamente, permitiendo que Moshi escuche y hable al mismo tiempo.

El desarrollo de Moshi por parte de Kyutai implicó el ajuste fino de más de 100,000 diálogos sintéticos creados utilizando tecnología de Texto a Voz (TTS). El objetivo era enseñar a Moshi las sutilezas y tonos de la comunicación humana. La marca incluso colaboró con un artista de voz profesional para mejorar la calidad de la voz de Moshi.

Este asistente de IA integra tanto entrenamiento de texto como de audio, optimizado para múltiples plataformas, lo que significa que puede funcionar en dispositivos como laptops sin necesidad de interactuar con la nube. La empresa presenta esto como una forma de mantener la privacidad y la seguridad al evitar la transmisión de datos sensibles por internet. Puedes ver una demostración de Moshi aquí.

Kyutai proclamó que Moshi será un proyecto de código abierto, incluyendo los códigos y el marco del modelo, proporcionando una base para una mayor innovación. El enfoque de código abierto también puede ayudar a mitigar las quejas que las grandes empresas de IA enfrentan en cuanto a seguridad y ética con sus modelos cerrados. Los patrocinadores de Kyutai, incluido el multimillonario francés Xavier Niel, están impulsando este enfoque de código abierto.

Kyutai también está trabajando en sistemas de identificación de audio de IA, marcas de agua y seguimiento de firmas para ser incorporados en Moshi. Estas características ayudarán a identificar el audio generado por IA, promoviendo la responsabilidad y la trazabilidad, asegurando que el contenido generado por IA pueda ser monitoreado y verificado.

Moshi aún está en desarrollo, pero el modo de voz en la presentación es impresionante. El enfoque de voz puede actuar como un catalizador para otras versiones habilitadas por voz de los rivales de ChatGPT o acelerar la adición de grandes modelos de lenguaje a Alexa y otros asistentes de voz si Moshi se vuelve popular.

Si deseas probar Moshi, una demostración está disponible en línea, y puedes registrarte para obtener acceso anticipado al chatbot completo allí también.

Pablo

"Los fundadores de DeepCure se unen para desarrollar un nuevo enfoque para el tratamiento del cáncer" El título se enfoca en los fundadores y su objetivo de desarrollar un nuevo enfoque para tratar el cáncer, lo que puede atraer la atención de aquellos interesados en la innovación en el campo de la oncología. Además, el título es conciso y cumple con el límite de 120 caracteres.

"La batalla entre Apple y Epic Games continúa: ¿Qué significa para el futuro de la App Store?"

Categorías

Tu fuente diaria de noticias e innovaciones en inteligencia artificial. Mantente conectado con el futuro, hoy.

Now Reading: “Moshi: el asistente de voz de IA que está revolucionando la comunicación humana con su capacidad de hablar en múltiples acentos y estilos emocionales”