La inteligencia artificial (IA) promete una gran revolución para los desarrolladores, pero ¿es solo útil para crear código? Modelos populares de IA, como los de Anthropic y OpenAI, no son muy buenos para depurar. Los investigadores de Microsoft están compartiendo sus herramientas para facilitar la investigación.
A pesar de que la IA se está integrando cada vez más en los flujos de trabajo de programación, una nueva investigación de Microsoft revela que los modelos de lenguaje grande aún no son muy efectivos para depurar. El estudio sugiere que incluso los modelos avanzados tienen dificultades con tareas de depuración que son bastante simples para desarrolladores experimentados, lo que resalta la importancia continua de los programadores humanos. Sin embargo, la IA sí parece tener un uso sólido, ya que Google afirma que alrededor del 25% del nuevo código es generado por IA. Meta también ha notado un amplio uso de la IA en la programación.
El informe detalla cómo 11 investigadores de Microsoft probaron nueve modelos de IA en SWE-bench Lite, un popular estándar de depuración. Claude 3.7 Sonnet tuvo la tasa de éxito más alta, aunque solo del 48.4%. Los modelos o1 y o3-mini de OpenAI mostraron tasas de éxito más bajas, del 30.2% y 22.1% respectivamente.
“Incluso con herramientas de depuración, nuestro agente basado en prompts rara vez resuelve más de la mitad de los problemas de SWE-bench Lite”, escribieron los investigadores, señalando que el rendimiento subóptimo se debe a la falta de datos que representen el comportamiento de toma de decisiones secuenciales.
No todo está perdido. “Creemos que entrenar o ajustar los modelos de lenguaje grande puede mejorar sus habilidades de depuración interactivas”, añadieron. Los investigadores planean ajustar un modelo especializado en recopilar la información necesaria para resolver errores, pero mientras tanto, prometen abrir el acceso a debug-gym para facilitar la investigación similar. Debug-gym se describe como un “entorno que permite a los agentes de reparación de código acceder a herramientas para un comportamiento activo de búsqueda de información”.
Sin embargo, por ahora, la inteligencia artificial puede no estar aportando tanto valor a la vida de los desarrolladores como las empresas de IA sugieren. “La mayoría de los desarrolladores pasan la mayor parte de su tiempo depurando código”, escribieron los investigadores, indicando que, aunque se benefician de la generación de código, puede que no les esté ahorrando tanto tiempo.


