OpenAI ha lanzado nuevos modelos de inteligencia artificial para transcripción y generación de voz en su API, que según la empresa, son una mejora respecto a versiones anteriores. Estos modelos forman parte de la visión más amplia de OpenAI de crear sistemas automatizados que puedan realizar tareas de manera independiente para los usuarios. Olivier Godemont, jefe de producto de OpenAI, explicó que uno de los usos de estos modelos es en chatbots que pueden interactuar con los clientes de un negocio. Godemont anticipa que en los próximos meses veremos más agentes de este tipo.
El nuevo modelo de texto a voz, llamado “gpt-4o-mini-tts”, promete ofrecer una voz más natural y realista, además de ser más flexible que los modelos anteriores. Los desarrolladores pueden indicarle a gpt-4o-mini-tts cómo debe sonar, por ejemplo, pidiéndole que hable como un científico loco o con una voz serena, como un maestro de mindfulness.
Jeff Haris, miembro del equipo de producto de OpenAI, mencionó que el objetivo es permitir que los desarrolladores personalicen tanto la experiencia de la voz como el contexto en el que se usa. Por ejemplo, en un servicio de atención al cliente, si se comete un error, la voz puede sonar más apologética.
En cuanto a los nuevos modelos de voz a texto, “gpt-4o-transcribe” y “gpt-4o-mini-transcribe”, estos reemplazan al modelo de transcripción Whisper, que ya estaba desactualizado. Los nuevos modelos están entrenados con datos de audio de alta calidad y pueden captar mejor el habla con acentos y variaciones, incluso en entornos ruidosos. Además, son menos propensos a cometer errores, a diferencia de Whisper, que a veces inventaba palabras o frases.
Sin embargo, el rendimiento puede variar según el idioma. Según las pruebas internas de OpenAI, gpt-4o-transcribe, el modelo más preciso, tiene una tasa de error de palabras cercana al 30% en idiomas como el tamil y el telugu, lo que significa que puede perder alrededor de tres de cada diez palabras en esos idiomas.
A diferencia de lo que ha hecho en el pasado, OpenAI no planea hacer estos nuevos modelos de transcripción disponibles de forma abierta. Harris explicó que gpt-4o-transcribe y gpt-4o-mini-transcribe son mucho más grandes que Whisper y no son adecuados para un lanzamiento abierto. La empresa quiere asegurarse de que cualquier modelo que liberen sea realmente útil y esté diseñado para necesidades específicas, y consideran que los dispositivos de los usuarios finales son uno de los casos más interesantes para modelos de código abierto.


