OpenAI retrasó el lanzamiento del Modo de Voz de ChatGPT, lo que molestó a muchos fanáticos del chatbot de IA. Sin embargo, ahora podría haber sido superado. El desarrollador francés de inteligencia artificial Kyutai ha presentado un asistente de voz en tiempo real llamado Moshi. Moshi está diseñado para mantener conversaciones realistas con los usuarios a través de la voz, similar a Alexa o Google Assistant, pero está impulsado por los grandes modelos de lenguaje que sustentan a ChatGPT y sus rivales, en este caso, el modelo Helium 7B.
Según Kyutai, Moshi puede hablar en varios acentos y tiene 70 estilos emocionales y de habla diferentes. La IA incluso puede manejar dos flujos de audio simultáneamente, permitiendo que Moshi escuche y hable al mismo tiempo.
El desarrollo de Moshi por parte de Kyutai implicó el ajuste fino de más de 100,000 diálogos sintéticos creados utilizando tecnología de Texto a Voz (TTS). El objetivo era enseñar a Moshi las sutilezas y tonos de la comunicación humana. La marca incluso colaboró con un artista de voz profesional para mejorar la calidad de la voz de Moshi.
Este asistente de IA integra tanto entrenamiento de texto como de audio, optimizado para múltiples plataformas, lo que significa que puede funcionar en dispositivos como laptops sin necesidad de interactuar con la nube. La empresa presenta esto como una forma de mantener la privacidad y la seguridad al evitar la transmisión de datos sensibles por internet. Puedes ver una demostración de Moshi aquí.
Kyutai proclamó que Moshi será un proyecto de código abierto, incluyendo los códigos y el marco del modelo, proporcionando una base para una mayor innovación. El enfoque de código abierto también puede ayudar a mitigar las quejas que las grandes empresas de IA enfrentan en cuanto a seguridad y ética con sus modelos cerrados. Los patrocinadores de Kyutai, incluido el multimillonario francés Xavier Niel, están impulsando este enfoque de código abierto.
Kyutai también está trabajando en sistemas de identificación de audio de IA, marcas de agua y seguimiento de firmas para ser incorporados en Moshi. Estas características ayudarán a identificar el audio generado por IA, promoviendo la responsabilidad y la trazabilidad, asegurando que el contenido generado por IA pueda ser monitoreado y verificado.
Moshi aún está en desarrollo, pero el modo de voz en la presentación es impresionante. El enfoque de voz puede actuar como un catalizador para otras versiones habilitadas por voz de los rivales de ChatGPT o acelerar la adición de grandes modelos de lenguaje a Alexa y otros asistentes de voz si Moshi se vuelve popular.
Si deseas probar Moshi, una demostración está disponible en línea, y puedes registrarte para obtener acceso anticipado al chatbot completo allí también.


