ElevenLabs, una startup de inteligencia artificial que recientemente recaudó 180 millones de dólares, es conocida por su capacidad de generar audio. Ahora, la empresa ha lanzado su primer modelo independiente de conversión de voz a texto llamado Scribe. Con una valoración de 3.3 mil millones de dólares, ElevenLabs ha ayudado a muchas otras empresas a ofrecer servicios de conversión de voz a texto gracias a su amplia biblioteca de voces. Sin embargo, ahora busca competir en la detección de voz con empresas como Gladia, Speechmatics, AssemblyAI, Deepgram y los modelos Whisper de OpenAI.
El modelo Scribe admite más de 99 idiomas desde su lanzamiento. La compañía destaca que más de 25 de esos idiomas tienen una precisión excelente, con una tasa de error de palabras inferior al 5%. Entre estos idiomas se encuentran el inglés (con una tasa de precisión del 97%), francés, alemán, hindi, indonesio, japonés, kannada, malayalam, polaco, portugués, español y vietnamita. Otros idiomas se clasifican en diferentes categorías según su tasa de error: alta (5-10%), buena (10-20%) y moderada (25-50%).
ElevenLabs afirma que su modelo superó a Google Gemini 2.0 Flash y Whisper Large V3 en múltiples idiomas en pruebas de referencia como FLEURS y Common Voice. La compañía había desarrollado previamente el componente de conversión de voz a texto para su plataforma de agente conversacional de IA, lanzada el año pasado. Sin embargo, esta es la primera vez que lanza un modelo de detección de voz independiente.
En una conversación con TechCrunch el mes pasado, el CEO Mati Staniszewski habló sobre la mejora de los modelos de detección de voz. “Queremos entender mejor lo que se dice en una conversación. Estamos trabajando en formas de alejarnos solo de generar contenido y enfocarnos en entender y transcribir el habla”, comentó Staniszewski. “Mucha gente dice que la conversión de voz a texto es un problema resuelto. Pero para muchos idiomas, la calidad es bastante mala. Creemos que podemos construir mejores modelos de detección de voz porque tenemos equipos internos para anotar datos y darnos retroalimentación rápida”.
El modelo también incluye características como la diarización de hablantes, que identifica quién está hablando, marcas de tiempo a nivel de palabra para subtítulos precisos y etiquetado automático de eventos sonoros, como risas del público. La startup ofrece a los clientes la posibilidad de transcribir contenido de video para agregar subtítulos o leyendas en su estudio. Actualmente, Scribe solo funciona con formatos de audio pregrabados, pero la empresa ha anunciado que pronto lanzará una versión en tiempo real de baja latencia. Esto significa que aún no es efectivo para transcripciones de reuniones o toma de notas de voz.
ElevenLabs ha fijado el precio de Scribe en 0.40 dólares por hora de audio transcrito. Aunque esta tarifa es competitiva, algunos de sus rivales ofrecen precios más bajos en transcripciones de audio, aunque con diferencias en características.


