Microsoft AI, el laboratorio de investigación de Microsoft liderado por Mustafa Suleyman, ha presentado tres nuevos modelos fundacionales de inteligencia artificial capaces de generar y procesar texto, voz e imagen, reforzando su apuesta por disponer de su propia familia de modelos multimodales y competir de forma más directa con Google y OpenAI.
Los modelos son MAI-Transcribe-1, MAI-Voice-1 y MAI-Image-2. MAI-Transcribe-1 transcribe audio en 25 idiomas a texto y, según Microsoft, es 2,5 veces más rápido que la oferta Azure Fast, con un precio de partida de 0,36 dólares por hora. MAI-Voice-1 genera audio, permite crear voces personalizadas y es capaz de producir 60 segundos de sonido en un segundo, con tarifas desde 22 dólares por millón de caracteres. MAI-Image-2, inicialmente lanzado en marzo en la plataforma de pruebas MAI Playground, es un modelo generador de vídeo e imagen cuyo uso comienza en 5 dólares por millón de tokens de entrada de texto y 33 dólares por millón de tokens de salida de imagen.
Los tres modelos están ahora disponibles en Microsoft Foundry, y los de transcripción y voz también se pueden probar en MAI Playground. Han sido desarrollados por el equipo MAI Superintelligence, creado en 2025 y dirigido por Suleyman, quien defiende una filosofía de “IA humanista”, centrada en cómo se comunican las personas y en aplicaciones prácticas.
En un mercado de modelos de lenguaje cada vez más saturado, Microsoft intenta diferenciarse con precios más bajos que los de Google y OpenAI, sin romper su alianza estratégica con esta última. La compañía ha invertido más de 13.000 millones de dólares en OpenAI y sigue integrando sus modelos en productos propios, al tiempo que impulsa sus propios sistemas de IA y su propia línea de chips, combinando desarrollo interno con la compra de hardware a terceros como Nvidia y AMD.


