La voz que escuchas, incluso si te resulta familiar, podría no ser real y no hay forma de saberlo. La síntesis de voz no es algo nuevo, pero cada vez más aplicaciones gratuitas están poniendo esta poderosa capacidad de clonar voces al alcance de cualquier persona, lo que podría tener consecuencias graves y difíciles de detener.
Un estudio reciente de Consumer Reports analizó varias herramientas de este tipo y destacó los riesgos. Plataformas como ElevenLabs, Speechify y Resemble AI utilizan modelos avanzados de síntesis de voz para analizar y recrear voces, a menudo sin muchas medidas de seguridad. Algunas, como Descript, piden el consentimiento de la voz grabada antes de recrear una firma vocal, pero otras no son tan cuidadosas.
Por ejemplo, encontré una aplicación llamada PlayKit de Play.ht que te permite clonar una voz de forma gratuita durante tres días y luego cobra $5.99 al mes. Aunque el costo podría parecer una barrera contra el mal uso, yo pude clonar una voz sin iniciar el período de prueba.
La aplicación te guía en la configuración y te presenta clones de voz prehechos, incluyendo voces de personajes como el expresidente Donald Trump y Elon Musk. Solo tienes que seleccionar un video de tu galería de fotos y subirlo. Los videos deben durar al menos 30 segundos (pero no más de un minuto) y estar en inglés. Podría haber elegido un video con cualquier persona, como una entrevista a George Clooney.
El sistema analiza rápidamente el audio. La aplicación no indica si esto se hace localmente o en la nube, pero asumo que es en la nube, ya que estos modelos potentes rara vez funcionan localmente en dispositivos móviles. Guardé mi clon de voz con mi nombre para poder seleccionarlo de nuevo.
Cuando quiero que mi clon diga algo, solo escribo el texto y presiono un botón grande de Generar. Este proceso suele tardar entre 10 y 15 segundos. Las voces que genera PlayKit, incluida la mía, son inquietantemente precisas. Si tengo una crítica, es que el tono y la emoción son un poco inexactos. Mi clon suena igual, ya sea hablando de qué comprar para la cena o diciendo que ha estado en un terrible accidente automovilístico. Incluso los signos de exclamación no cambian la expresión.
A pesar de esto, puedo imaginar que algunas personas podrían ser engañadas. Recuerda, cualquiera con acceso a 30 segundos de video de ti hablando podría clonar tu voz y usarla como desee. Claro, eventualmente tendrían que pagar $5.99 al mes para seguir usándola, pero si alguien planea un fraude financiero, podría considerar que vale la pena.
Plataformas como esta, que no requieren permiso explícito para clonar voces, seguramente proliferarán, y mi preocupación es que no hay medidas de seguridad o regulaciones a la vista. Servicios como Descript, que requieren consentimiento de audio de la persona clonada, son excepciones.
Play.ht afirma que protege los derechos de voz de las personas. En su página de Ética de IA, dicen que valoran los derechos de propiedad intelectual y la propiedad personal. Los usuarios solo pueden clonar sus propias voces o aquellas para las que tienen permiso explícito. Esta política estricta está diseñada para prevenir infracciones de derechos de autor y mantener un alto estándar de respeto y responsabilidad.
Sin embargo, la realidad es que empecé a grabar clips de 30 segundos de monólogos de películas de Benedict Cumberbatch y Al Pacino, y en menos de un minuto, tenía clones de voz utilizables de ambos actores.
Lo que se necesita aquí es una regulación global de la IA, pero eso requiere acuerdo y cooperación a nivel gubernamental, y actualmente eso no está sucediendo. En 2023, el entonces presidente Joe Biden firmó una Orden Ejecutiva sobre IA que buscaba ofrecer alguna orientación regulatoria. Sin embargo, la administración Trump revocó rápidamente esa orden. El problema es que aún no han propuesto nada para reemplazarla. Parece que el nuevo plan es esperar que las empresas de IA sean buenos ciudadanos digitales y al menos intenten no hacer daño.
Desafortunadamente, la mayoría de estas empresas son como fabricantes de armas. No están dañando a las personas directamente, pero algunas personas que utilizan sus “armas de IA” sí lo están haciendo.
No hay una solución fácil para lo que temo que se convertirá en una crisis de clonación de voces, pero sugiero que ya no confíes plenamente en las voces que escuchas en videos, por teléfono o en mensajes de voz. Si tienes dudas, contacta directamente a la persona correspondiente. Mientras tanto, espero que más plataformas de voz exijan permiso de voz y/o documentación antes de permitir a los usuarios clonar la voz de alguien.


