OpenAI ha incorporado a su API una nueva familia de modelos de voz pensados para que los desarrolladores creen aplicaciones que hablen, escuchen y actúen en tiempo real. La pieza central es GPT‑Realtime‑2, un modelo de voz que simula una voz humana y añade capacidades de razonamiento de clase GPT‑5, lo que le permite mantener conversaciones más complejas y resolver peticiones avanzadas.
Junto a este modelo, la compañía presenta GPT‑Realtime‑Translate, un sistema de traducción simultánea capaz de seguir el ritmo de la conversación. Admite más de 70 idiomas de entrada y puede responder en 13 idiomas de salida, lo que lo orienta a casos como atención al cliente multilingüe, educación online, eventos internacionales o plataformas de creadores.
El tercer componente es GPT‑Realtime‑Whisper, una función de transcripción en vivo que convierte la voz en texto a medida que se desarrolla la interacción. OpenAI sostiene que, combinados, estos modelos elevan la voz desde simples respuestas automatizadas hasta interfaces capaces de escuchar, razonar, traducir, transcribir y ejecutar acciones durante una conversación.
La empresa reconoce el riesgo de usos maliciosos —como spam, fraude o abusos online— y asegura haber incorporado sistemas de seguridad que detienen las conversaciones que violen sus políticas de contenido dañino. Los nuevos modelos se ofrecen a través de la Realtime API: Translate y Whisper se cobran por minuto de uso, mientras que GPT‑Realtime‑2 se factura por consumo de tokens. El artículo incluye además contenido claramente promocional sobre el evento TechCrunch Disrupt 2026, sin relación directa con los anuncios técnicos de OpenAI.


