ElevenLabs, una startup que ofrece clonación de voz con inteligencia artificial y una API de texto a voz, ha lanzado la capacidad de crear bots de conversación. Ahora, los usuarios pueden construir agentes conversacionales completos en la plataforma de desarrollo de ElevenLabs, personalizando aspectos como el tono de voz y la longitud de las respuestas.
Hasta ahora, ElevenLabs se había enfocado en proporcionar diferentes voces y herramientas de IA para servicios de texto a voz. Sam Sklar, el director de crecimiento de la empresa, comentó que muchos de sus clientes ya estaban utilizando esta función para crear agentes conversacionales. Sin embargo, integrar la base de conocimiento y manejar interrupciones de los clientes eran los mayores desafíos. Por eso, decidieron desarrollar un sistema completo para bots conversacionales.
Los usuarios pueden iniciar sesión en su cuenta de ElevenLabs y comenzar a crear un agente de conversación seleccionando una plantilla o creando un nuevo proyecto. Pueden elegir el idioma principal del agente, el primer mensaje y una indicación del sistema para definir la personalidad del agente. También deben seleccionar un modelo de lenguaje grande (Gemini, GPT o Claude), la temperatura de las respuestas (para determinar cuán creativa debe ser la respuesta) y el límite de uso de tokens. Además, pueden ajustar otros aspectos como la voz, la latencia, la estabilidad, los criterios de autenticación y la longitud máxima de la conversación con el agente de IA.
Los usuarios pueden añadir su propia base de conocimiento, como un archivo, URL o bloque de texto, para potenciar el bot conversacional. También pueden integrar su propio modelo de lenguaje personalizado con el bot. El SDK de ElevenLabs es compatible con Python, Javascript, React y Swift, y la empresa ofrece una API WebSocket para más personalización.
Las empresas pueden definir criterios para recopilar ciertos datos, como el nombre y el correo electrónico de los clientes que interactúan con el agente, así como criterios de evaluación en lenguaje natural para definir el éxito o fracaso de la llamada. ElevenLabs está aprovechando su infraestructura existente para la parte de texto a voz, pero aún necesita desarrollar capacidades de voz a texto para su nuevo producto de IA conversacional. Actualmente, la empresa no ofrece su API de voz a texto como un producto independiente, pero podría hacerlo en el futuro, convirtiéndose en competidor de las APIs de voz a texto de Google, Microsoft y Amazon, así como de APIs especializadas como Whisper de OpenAI, AssemblyAI, Deepgram, Speechmatics y Gladia.
ElevenLabs busca recaudar nuevos fondos con una valoración superior a los 3 mil millones de dólares y compite con otras startups de voz IA, como Vapi y Retell, que también están desarrollando agentes conversacionales. Además, la empresa competirá con la API de conversación en tiempo real de OpenAI, aunque ElevenLabs cree que sus personalizaciones y la capacidad de cambiar modelos le darán una ventaja sobre OpenAI.


