La francesa Mistral AI ha presentado Voxtral TTS, un nuevo modelo de texto a voz de código abierto orientado a asistentes de voz y atención al cliente, que la sitúa en competencia directa con OpenAI, ElevenLabs y Deepgram. Voxtral TTS admite nueve idiomas (entre ellos español, inglés, francés, alemán, portugués e incluso hindi y árabe) y está diseñado para funcionar en tiempo real con hardware modesto, desde relojes inteligentes hasta portátiles y otros dispositivos en el borde de la red.
Según Pierre Stock, vicepresidente de operaciones científicas de Mistral, el modelo es compacto y mucho más barato de ejecutar que otras opciones del mercado, pero mantiene un rendimiento de vanguardia. Puede crear una voz personalizada con menos de cinco segundos de muestra de audio, conservando acento, inflexiones e irregularidades naturales, y cambiar de idioma sin perder la identidad vocal, algo clave para doblaje o traducción simultánea.
En términos técnicos, Mistral indica que Voxtral TTS tiene un tiempo de inicio de audio de unos 90 milisegundos y un factor de tiempo real de 6x, lo que le permite generar un clip de 10 segundos en aproximadamente 1,6 segundos. El sistema se basa en el modelo Ministral 3B y está pensado para integrarse con otros productos de la compañía, como sus modelos de transcripción, para ofrecer una plataforma completa de voz y agentes multimodales capaces de procesar texto, audio e imagen de extremo a extremo.
La estrategia de Mistral se apoya en el código abierto y en amplias posibilidades de personalización para atraer a empresas que buscan soluciones de voz ajustables a sus necesidades, frente a alternativas más cerradas. Parte del contenido del artículo incluye promociones de eventos de TechCrunch, que no están directamente relacionadas con el anuncio tecnológico central.


