La startup ElevenLabs, especializada en modelos de voz impulsados por inteligencia artificial, defiende que la voz será la próxima gran forma de interactuar con la tecnología. Su cofundador y CEO, Mati Staniszewski, explicó en el Web Summit de Doha que los sistemas de voz han pasado de imitar el habla humana —incluyendo emoción e entonación— a combinarse con el razonamiento de grandes modelos de lenguaje, lo que cambia por completo la relación entre personas y máquinas.
Staniszewski imagina un futuro cercano en el que los usuarios vuelvan a guardar el móvil en el bolsillo y controlen el entorno digital hablando, mientras se mueven en el mundo físico. Esta visión ha contribuido a que ElevenLabs cierre una ronda de financiación de 500 millones de dólares, con una valoración de 11.000 millones, y refleja una tendencia que comparten OpenAI, Google y Apple, todos volcados en interfaces de audio y tecnologías siempre activas.
El auge de la IA en wearables, coches y nuevos dispositivos está desplazando el protagonismo de las pantallas y los teclados hacia los comandos de voz, que se perfilan como el próximo gran campo de batalla del sector. El inversor Seth Pierrepont, de Iconiq Capital, respaldó esta idea en el mismo evento, señalando que, aunque las pantallas seguirán siendo clave para el ocio, los métodos tradicionales de entrada de datos empiezan a percibirse como anticuados.
Ambos destacan la transición hacia sistemas más “agénticos”: asistentes que mantienen memoria y contexto a lo largo del tiempo y que pueden actuar con menos instrucciones explícitas del usuario. Según Staniszewski, esto hará que las interacciones de voz sean más naturales y requieran menos esfuerzo.
Para soportar este nuevo modelo, ElevenLabs apuesta por un enfoque híbrido que combine procesamiento en la nube y en el propio dispositivo, pensando en auriculares, gafas y otros wearables donde la voz sea un acompañante constante. La empresa ya colabora con Meta para integrar su tecnología en Instagram y en la plataforma de realidad virtual Horizon Worlds, y no descarta trabajar también en productos como las gafas inteligentes Ray-Ban.
Sin embargo, esta expansión de interfaces de voz siempre presentes aviva las dudas sobre privacidad, vigilancia y el volumen de datos personales que estos sistemas pueden llegar a recopilar, un riesgo que ya ha generado polémicas y demandas contra empresas como Google. El reto para la próxima fase de la IA será equilibrar la comodidad de hablar con las máquinas con garantías sólidas de protección de datos.


