Los modelos de inteligencia artificial de OpenAI, Anthropic y otros laboratorios líderes están siendo cada vez más utilizados para ayudar en tareas de programación. El CEO de Google, Sundar Pichai, mencionó en octubre que el 25% del nuevo código en la empresa es generado por inteligencia artificial. Además, Mark Zuckerberg, CEO de Meta, ha expresado su deseo de implementar ampliamente modelos de codificación con IA en la gigante de las redes sociales. Sin embargo, incluso algunos de los mejores modelos actuales tienen dificultades para resolver errores de software que no representarían un reto para programadores experimentados.
Un nuevo estudio de Microsoft Research revela que modelos como Claude 3.7 Sonnet de Anthropic y o3-mini de OpenAI no logran depurar muchos problemas en un conjunto de pruebas de desarrollo de software llamado SWE-bench Lite. Los resultados son un recordatorio de que, a pesar de las afirmaciones audaces de empresas como OpenAI, la inteligencia artificial todavía no puede igualar a los expertos humanos en áreas como la programación.
Los coautores del estudio probaron nueve modelos diferentes como base para un “agente basado en un solo aviso” que tenía acceso a varias herramientas de depuración, incluyendo un depurador de Python. Este agente fue encargado de resolver un conjunto curado de 300 tareas de depuración de software de SWE-bench Lite. Según los coautores, incluso cuando se utilizaron modelos más fuertes y recientes, el agente rara vez completó más de la mitad de las tareas de depuración con éxito. Claude 3.7 Sonnet tuvo la tasa de éxito promedio más alta (48.4%), seguido por o1 de OpenAI (30.2%) y o3-mini (22.1%).
¿Por qué el rendimiento decepcionante? Algunos modelos tuvieron dificultades para utilizar las herramientas de depuración disponibles y entender cómo diferentes herramientas podrían ayudar con distintos problemas. Sin embargo, el problema más grande fue la escasez de datos, según los coautores. Especulan que no hay suficientes datos que representen “procesos de toma de decisiones secuenciales” —es decir, los rastros de depuración humana— en los datos de entrenamiento de los modelos actuales.
“Creemos firmemente que entrenar o ajustar [los modelos] puede hacerlos mejores depuradores interactivos”, escribieron los coautores en su estudio. “Sin embargo, esto requerirá datos especializados para cumplir con dicho entrenamiento de modelos, por ejemplo, datos de trayectoria que registren la interacción de los agentes con un depurador para recopilar la información necesaria antes de sugerir una solución a un error”.
Los hallazgos no son exactamente sorprendentes. Muchos estudios han demostrado que la IA generadora de código tiende a introducir vulnerabilidades de seguridad y errores, debido a debilidades en áreas como la comprensión de la lógica de programación. Una evaluación reciente de Devin, una herramienta popular de codificación con IA, encontró que solo podía completar tres de 20 pruebas de programación. Sin embargo, el trabajo de Microsoft es uno de los análisis más detallados sobre un área problemática persistente para los modelos.
Es probable que esto no disminuya el entusiasmo de los inversores por las herramientas de codificación asistidas por IA, pero con suerte, hará que los desarrolladores —y sus superiores— piensen dos veces antes de dejar que la IA dirija el proceso de codificación. Por lo que vale, un número creciente de líderes tecnológicos ha cuestionado la idea de que la IA eliminará los trabajos de programación. El cofundador de Microsoft, Bill Gates, ha dicho que cree que la programación como profesión está aquí para quedarse. Lo mismo han afirmado el CEO de Replit, Amjad Masad, el CEO de Okta, Todd McKinnon, y el CEO de IBM, Arvind Krishna.


