El martes, Amazon presentó un nuevo modelo de inteligencia artificial generativa llamado Nova Sonic, que puede procesar voz y generar un habla que suena natural. Amazon asegura que el rendimiento de Nova Sonic es comparable al de los modelos de voz más avanzados de OpenAI y Google, en pruebas que miden velocidad, reconocimiento de voz y calidad de conversación. Nova Sonic es la respuesta de Amazon a modelos de voz más recientes, como el que impulsa el Modo de Voz de ChatGPT, que son más agradables de usar que los modelos más rígidos de las primeras versiones de Amazon Alexa.
Los avances tecnológicos recientes han hecho que los modelos antiguos y los asistentes digitales que los sustentan, como Alexa y Siri de Apple, parezcan muy limitados en comparación. Nova Sonic está disponible a través de Bedrock, la plataforma de desarrollo de Amazon para crear aplicaciones de inteligencia artificial empresarial, mediante una nueva API de transmisión bidireccional. En un comunicado, Amazon describió a Nova Sonic como “el modelo de voz de IA más rentable” del mercado, siendo alrededor de un 80% más barato que el modelo GPT-4o de OpenAI.
Partes de Nova Sonic ya están impulsando Alexa+, la versión mejorada del asistente de voz de Amazon, según Rohit Prasad, vicepresidente senior y científico jefe de AGI en Amazon. En una entrevista, Prasad mencionó que Nova Sonic se basa en la experiencia de Amazon en “sistemas de orquestación grandes”, que son la base técnica de Alexa. En comparación con otros modelos de voz de IA, Nova Sonic es excelente para dirigir solicitudes de los usuarios a diferentes APIs, lo que le permite “saber” cuándo necesita buscar información en tiempo real, analizar una fuente de datos específica o actuar en una aplicación externa, utilizando la herramienta adecuada para cada tarea.
Durante un diálogo, Nova Sonic espera para hablar “en el momento apropiado”, considerando las pausas e interrupciones del hablante. También genera una transcripción de texto del discurso del usuario, que los desarrolladores pueden utilizar para diversas aplicaciones. Según Prasad, Nova Sonic comete menos errores de reconocimiento de voz que otros modelos de IA, lo que significa que es bastante bueno para entender la intención del usuario, incluso si habla de manera poco clara o en un entorno ruidoso.
En una prueba de reconocimiento de voz en varios idiomas y dialectos, llamada Multilingual LibriSpeech, Amazon afirma que Nova Sonic logró una tasa de error de palabras (WER) de solo 4.2% al promediar inglés, francés, italiano, alemán y español. Esto significa que aproximadamente cuatro de cada 100 palabras del modelo diferían de una transcripción humana en esos idiomas. En otra prueba que mide interacciones ruidosas con múltiples participantes, llamada Augmented Multi Party Interaction, Amazon dice que Nova Sonic fue un 46.7% más preciso en términos de WER que el modelo de transcripción GPT-4o de OpenAI.
Nova Sonic también tiene una velocidad líder en la industria, con una latencia percibida promedio de 1.09 segundos, según Amazon. Esto lo hace más rápido que el modelo GPT-4o que impulsa la API en tiempo real de OpenAI, que responde en 1.18 segundos, según pruebas de Artificial Analysis. Prasad menciona que Nova Sonic es parte de la estrategia más amplia de Amazon para construir AGI (inteligencia general artificial), que la compañía define como “sistemas de IA que pueden hacer cualquier cosa que un humano pueda hacer en una computadora”.
En el futuro, Prasad dice que Amazon planea lanzar más modelos de IA que puedan entender diferentes modalidades, incluyendo imagen, video y voz, así como “otros datos sensoriales relevantes al llevar cosas al mundo físico”. La división de AGI de Amazon, que Prasad supervisa, parece estar desempeñando un papel más importante en la estrategia de productos de la compañía en estos días. La semana pasada, Amazon lanzó una vista previa de Nova Act, un modelo de IA que utiliza el navegador y que parece estar impulsando elementos de Alexa+ y la función Comprar por mí de Amazon. Comenzando con Nova Sonic, Prasad dice que la compañía quiere ofrecer más de sus modelos internos de IA para que los desarrolladores puedan trabajar con ellos.


