El asistente de inteligencia artificial Gemini de Google ahora permite subir archivos de audio. Esta nueva función puede transcribir, resumir y extraer información clave de grabaciones. Con ella, 10 minutos de notas de voz, reuniones, conferencias e entrevistas se convierten en documentos buscables. Google Gemini ha aprendido a escuchar y entender lo que oye. Ahora puedes subir archivos de audio al asistente de IA a través de la web o las aplicaciones móviles y obtener transcripciones, resúmenes y detalles importantes.
Para aquellos que han dejado notas de voz olvidadas en su teléfono o que temen volver a ver grabaciones de reuniones, esta actualización podría ser como tener un asistente personal que toma notas. Sin embargo, solo puede manejar 10 minutos de audio a la vez, así que no se pueden subir reuniones largas todavía. Puedes subir los archivos de audio seleccionando la opción de carga de archivos habitual. A diferencia de las funciones de voz en tiempo real de Gemini, esta opción permite que la IA procese datos de manera diferente.
La carga de archivos de audio ha sido una de las funciones más solicitadas por los usuarios, según Josh Woodward, vicepresidente de Gemini en Google. Yo probé esta función subiendo algunos sketches de viejos álbumes de comedia y una conversación telefónica con un amigo. La IA transcribió correctamente todas las palabras, aunque cometió algunos pequeños errores con nombres. También fue buena para extraer elementos clave y cosas que se debían anotar.
La demanda de funciones de audio y la respuesta de Google indican cómo las herramientas de IA están evolucionando para adaptarse a la forma en que guardamos información en registros de audio y notas de voz. Convertir eso en algo buscable solía requerir software de transcripción externo, pero la nueva función de Gemini simplifica este proceso en un solo paso.
Esta adición llega en un momento oportuno, ya que se alinea con otras mejoras recientes de Gemini. Google ya ha integrado Gemini en varias aplicaciones, ha comenzado a probar una interfaz visual basada en tarjetas y ha ampliado significativamente las opciones de personalización de Gemini. La capacidad de procesar audio continúa con esta tendencia.
La opción de audio no es exclusiva de Gemini entre los asistentes de IA, pero puede igualar algunas de las capacidades de ChatGPT gracias a su modelo de transcripción Whisper. De hecho, en mis pruebas, preferí la oferta de Google. Otros asistentes como Claude de Anthropic también manejan audio en algunas herramientas para desarrolladores, y Perplexity puede extraer datos de videos de YouTube. Sin embargo, la ejecución de Gemini está más enfocada en casos de uso cotidianos.
Además, la salida no es solo una transcripción simple. Puedes pedirle a Gemini que simplifique el lenguaje, extraiga comentarios específicos de los hablantes, genere preguntas basadas en el contenido o cree una guía de estudio a partir de una discusión en clase. Sin embargo, el límite de 10 minutos puede ser un obstáculo para su uso diario. Los usuarios de la versión gratuita también enfrentan límites de uso diario.
Google no ha publicado un desglose formal de precios para el procesamiento de audio de alto volumen, pero forma parte de la cuota regular de Gemini, así que quienes planeen subir docenas de horas de declaraciones legales deben ir con calma.


