Sesame, la empresa de inteligencia artificial detrás del realista asistente de voz Maya, ha lanzado el modelo base de IA que impulsa a Maya, tal como prometió recientemente. Este modelo, llamado CSM-1B, tiene un tamaño de 1 mil millones de parámetros, que son los componentes del modelo. Está bajo una licencia Apache 2.0, lo que significa que se puede usar comercialmente con pocas restricciones.
CSM-1B genera “códigos de audio RVQ” a partir de entradas de texto y audio, según la descripción de Sesame en la plataforma de desarrollo de IA Hugging Face. RVQ se refiere a “cuantificación de vectores residuales”, una técnica para codificar audio en tokens discretos llamados códigos. Esta técnica se utiliza en varias tecnologías de audio de IA recientes, incluyendo SoundStream de Google y Encodec de Meta.
CSM-1B utiliza un modelo de la familia Llama de Meta como base, combinado con un componente de “decodificador” de audio. Una variante ajustada de CSM impulsa a Maya, según indica Sesame. “El modelo que se ha liberado aquí es un modelo de generación base”, escribe Sesame en los repositorios de Hugging Face y GitHub de CSM-1B. “Es capaz de producir una variedad de voces, pero no ha sido ajustado para ninguna voz específica. […] El modelo tiene cierta capacidad para idiomas que no son inglés debido a la contaminación de datos en el conjunto de entrenamiento, pero probablemente no funcionará bien.”
No está claro qué datos utilizó Sesame para entrenar CSM-1B, ya que la empresa no lo ha especificado. Además, el modelo no cuenta con salvaguardias reales. Es una situación de “sistema de honor”. Sesame simplemente insta a los desarrolladores y usuarios a no usar el modelo para imitar la voz de una persona sin su consentimiento, crear contenido engañoso como noticias falsas, o participar en actividades “perjudiciales” o “maliciosas”.
Probé la demostración en Hugging Face, y clonar mi voz tomó menos de un minuto. Desde allí, fue fácil generar discursos sobre cualquier tema, incluyendo temas controvertidos como las elecciones y la propaganda rusa. Sesame, cofundada por Brendan Iribe, co-creador de Oculus, se volvió viral a finales de febrero por su tecnología de asistente, que se acerca a cruzar el “valle inquietante”. Maya y el otro asistente de Sesame, Miles, respiran y hablan con disfluencias, y pueden ser interrumpidos mientras hablan, muy parecido al Modo de Voz de OpenAI.
Sesame ha recaudado una cantidad no revelada de capital de Andreessen Horowitz, Spark Capital y Matrix Partners. Además de desarrollar tecnología de asistentes de voz, la empresa dice que está prototipando gafas de IA “diseñadas para usarse todo el día” que estarán equipadas con sus modelos personalizados.


