OpenAI ha lanzado dos nuevos modelos de inteligencia artificial para ChatGPT: OpenAI o3 y OpenAI o4-mini. Estos se suman a GPT-4.5, que aún está en pruebas, y a GPT-4o, que es la opción predeterminada para los usuarios de ChatGPT. Quería ver cómo se desempeñan entre sí, pero me interesaba más su rendimiento en situaciones cotidianas. ¿Importa realmente a una persona promedio qué modelo utiliza ChatGPT para responder a una pregunta trivial o generar una foto divertida?
Diseñé cuatro pruebas diferentes: una sobre lógica visual, otra sobre creatividad visual, una más sobre lingüística y traducción, y una última sobre poesía. Luego, probé cada una de estas pruebas con o3, o4-mini, GPT-4o y GPT-4.5 para ver cómo respondían.
El modelo o3 se presenta como el más inteligente, con grandes capacidades de razonamiento y habilidad para interpretar imágenes. Aunque pertenece a la familia GPT-4, OpenAI afirma que supera a sus “hermanos” en muchos aspectos. Por otro lado, el modelo o4-mini es una opción más económica, más rápida y barata, aunque un poco menos potente. GPT-4.5 es considerado el modelo más capaz que OpenAI ha creado, con mejor comprensión del contexto y una combinación de lógica y empatía.
La mayoría de las personas utilizarán el modelo GPT-4o, que es versátil y funciona bien, aunque no tiene el mismo nivel de lógica o emoción que los modelos más nuevos.
Empecé con una prueba de razonamiento visual usando un rompecabezas de Sudoku. Pedí a cada modelo que resolviera el rompecabezas y explicara su razonamiento paso a paso. Todos respondieron afirmativamente y resolvieron el Sudoku correctamente. Sin embargo, o3 y o4-mini mostraron su proceso de pensamiento antes de dar la respuesta, mientras que GPT-4o y GPT-4.5 fueron más conversacionales en sus explicaciones.
Luego, probé la creatividad pidiendo a los modelos que escribieran un poema sobre las estaciones del año, comenzando cada línea con la siguiente letra del alfabeto. Todos siguieron el formato, pero o3 fue el único que no rimó. Los demás lograron cumplir con el reto, aunque sus poemas fueron un poco simples.
Para la siguiente prueba, subí una foto de varios ingredientes y pedí sugerencias sobre qué cocinar. El modelo o3 fue muy práctico, sugiriendo un “Tostada de Batata Picante con Garbanzos y Guacamole”. El o4-mini también ofreció una receta clara, mientras que GPT-4o fue más breve de lo esperado. GPT-4.5, por su parte, presentó un menú completo de platos, lo que me dejó emocionado por probar la receta de sorbete de mango.
Finalmente, pedí a los modelos que tradujeran la frase “Está lloviendo gatos y perros” al japonés, buscando una traducción culturalmente adecuada. Todos coincidieron en que no hay una traducción exacta, pero la mejor forma de expresarlo sería decir que está lloviendo como si alguien hubiera volcado un balde. GPT-4.5 proporcionó la traducción literal y explicó por qué no tendría sentido en japonés.
En general, todos los modelos tuvieron un buen desempeño, cada uno con sus propias características. O3 es el más analítico, o4-mini es rápido, GPT-4.5 intenta imitar las respuestas humanas y GPT-4o se divierte con los emojis. Para tareas básicas, cualquiera de ellos funcionará bien, pero si estoy en la cocina, probablemente elegiría GPT-4.5, especialmente si el sorbete resulta tan bueno como promete.


