OpenAI lanzó el lunes una nueva familia de modelos llamada GPT-4.1. Esta nueva versión incluye GPT-4.1, GPT-4.1 mini y GPT-4.1 nano, todos diseñados para sobresalir en programación y seguir instrucciones. Estos modelos están disponibles a través de la API de OpenAI, pero no en ChatGPT. Tienen una capacidad de contexto de un millón de tokens, lo que significa que pueden procesar aproximadamente 750,000 palabras de una vez (más que “Guerra y Paz”).
GPT-4.1 llega en un momento en que competidores como Google y Anthropic están intensificando sus esfuerzos para desarrollar modelos de programación avanzados. El modelo Gemini 2.5 Pro de Google, que también tiene una capacidad de un millón de tokens, ha obtenido buenos resultados en pruebas de codificación. Lo mismo ocurre con Claude 3.7 Sonnet de Anthropic y la versión mejorada V3 de la startup china DeepSeek.
El objetivo de muchas empresas tecnológicas, incluida OpenAI, es crear modelos de inteligencia artificial que puedan realizar tareas complejas de ingeniería de software. La ambición de OpenAI es desarrollar un “ingeniero de software agente”, como mencionó su directora financiera, Sarah Friar, en una cumbre tecnológica en Londres el mes pasado. La compañía afirma que sus futuros modelos podrán programar aplicaciones completas, manejando aspectos como la garantía de calidad, pruebas de errores y redacción de documentación. GPT-4.1 es un paso en esta dirección.
OpenAI ha optimizado GPT-4.1 para su uso en el mundo real, basándose en comentarios directos para mejorar en áreas que son importantes para los desarrolladores, como la codificación en frontend, hacer menos ediciones innecesarias, seguir formatos de manera confiable y usar herramientas de manera consistente. Según un portavoz de OpenAI, estas mejoras permiten a los desarrolladores crear agentes que son significativamente mejores en tareas de ingeniería de software en el mundo real.
OpenAI asegura que el modelo completo GPT-4.1 supera a sus modelos GPT-4o y GPT-4o mini en pruebas de codificación, incluyendo SWE-bench. Los modelos GPT-4.1 mini y nano son más eficientes y rápidos, aunque a costa de algo de precisión. OpenAI menciona que GPT-4.1 nano es su modelo más rápido y económico hasta la fecha. Los precios son los siguientes: GPT-4.1 cuesta $2 por millón de tokens de entrada y $8 por millón de tokens de salida; GPT-4.1 mini cuesta $0.40 por millón de tokens de entrada y $1.60 por millón de tokens de salida; y GPT-4.1 nano cuesta $0.10 por millón de tokens de entrada y $0.40 por millón de tokens de salida.
Según pruebas internas de OpenAI, GPT-4.1 puede generar más tokens a la vez que GPT-4o (32,768 frente a 16,384) y obtuvo entre un 52% y un 54.6% en SWE-bench Verified, un subconjunto validado por humanos de SWE-bench. Sin embargo, estos resultados son ligeramente inferiores a los obtenidos por Google y Anthropic para Gemini 2.5 Pro (63.8%) y Claude 3.7 Sonnet (62.3%) en la misma prueba.
En una evaluación separada, OpenAI examinó GPT-4.1 utilizando Video-MME, diseñado para medir la capacidad de un modelo para “entender” contenido en videos. GPT-4.1 alcanzó una precisión del 72% en la categoría de videos “largos, sin subtítulos”. Aunque GPT-4.1 tiene un buen desempeño en pruebas y cuenta con una “fecha de corte de conocimiento” más reciente (hasta junio de 2024), es importante recordar que incluso los mejores modelos actuales tienen dificultades con tareas que no deberían ser complicadas para expertos. Por ejemplo, muchos estudios han demostrado que los modelos generadores de código a menudo no logran corregir, e incluso introducen, vulnerabilidades de seguridad y errores.
OpenAI también reconoce que GPT-4.1 se vuelve menos confiable (es decir, es más propenso a cometer errores) a medida que tiene que manejar más tokens de entrada. En una de las pruebas de la compañía, OpenAI-MRCR, la precisión del modelo disminuyó del 84% con 8,000 tokens al 50% con 1,024 tokens. Además, GPT-4.1 tiende a ser más “literal” que GPT-4o, lo que a veces requiere indicaciones más específicas y explícitas.


