A medida que los sistemas de inteligencia artificial se vuelven más avanzados, la comunicación por voz se está convirtiendo en la forma principal de interactuar con las máquinas. La startup francesa de IA, Mistral, ha entrado en la competencia de audio con su primer modelo abierto, buscando desafiar el dominio de los sistemas corporativos cerrados con alternativas de código abierto.
El martes, Mistral anunció el lanzamiento de Voxtral, su primera familia de modelos de audio dirigidos a empresas. La compañía presenta a Voxtral como el primer modelo abierto capaz de ofrecer “una inteligencia de voz realmente utilizable en producción”. Esto significa que los desarrolladores ya no tendrán que elegir entre un sistema económico y abierto que tiene problemas con las transcripciones y no entiende bien lo que se dice, o uno que funciona bien pero es cerrado, lo que implica costos más altos y menos control sobre su implementación.
Para las empresas, esto significa que Voxtral ofrece una alternativa asequible que, según la compañía, cuesta “menos de la mitad” que soluciones comparables. Mistral afirma que Voxtral puede transcribir hasta 30 minutos de audio. Gracias a su arquitectura de modelo de lenguaje, Mistral Small 3.1, puede entender hasta 40 minutos, permitiendo a los usuarios hacer preguntas sobre el contenido de audio, generar resúmenes o convertir comandos de voz en acciones en tiempo real, como llamar a APIs o ejecutar funciones. Voxtral también es multilingüe, con la capacidad de transcribir y entender idiomas como inglés, español, francés, portugués, hindi, alemán, neerlandés e italiano.
La empresa ofrece dos variantes de sus “modelos de comprensión de voz”. La primera, Voxtral Small, tiene 24 mil millones de parámetros para implementaciones a gran escala y es competitiva con ElevenLabs Scribe, GPT-4o-mini y Gemini 2.5 Flash. La segunda, Voxtral Mini, cuenta con 3 mil millones de parámetros para implementaciones locales y en la nube. Además, hay una versión ultra económica y simplificada del modelo de 3B llamada Voxtral Mini Transcribe, que está optimizada para casos de uso de transcripción y promete superar a OpenAI Whisper por menos de la mitad del precio.
Los usuarios pueden probar Voxtral de forma gratuita descargando la API en Hugging Face o probando los modelos en el chatbot de Mistral, Le Chat. La integración de la API en aplicaciones comienza en $0.001 por minuto, según la compañía. Este lanzamiento se produce un mes después de que Mistral anunciara Magistral, su primera familia de modelos de razonamiento que resuelven problemas paso a paso para mejorar la fiabilidad. Mistral, una de las principales empresas de IA en Europa, es conocida por su defensa de los modelos de IA de código abierto. A principios de este mes, TechCrunch informó que la compañía está en conversaciones para recaudar hasta $1 mil millones en capital de inversores como el fondo MGX de Abu Dhabi.


