El pasado viernes, OpenAI presentó un nuevo sistema de programación llamado Codex, diseñado para realizar tareas de programación complejas a partir de comandos en lenguaje natural. Codex marca el inicio de una nueva era de herramientas de codificación que están comenzando a desarrollarse. Desde el Copilot de GitHub hasta herramientas contemporáneas como Cursor y Windsurf, la mayoría de los asistentes de codificación con inteligencia artificial funcionan como una forma muy inteligente de autocompletar. Estas herramientas generalmente se utilizan en un entorno de desarrollo integrado, donde los usuarios interactúan directamente con el código generado por la IA. Sin embargo, la idea de simplemente asignar una tarea y regresar cuando esté terminada aún está lejos de ser una realidad.
Las nuevas herramientas de codificación, como Devin, SWE-Agent, OpenHands y OpenAI Codex, están diseñadas para trabajar sin que los usuarios tengan que ver el código. El objetivo es operar como un gerente de equipo de ingeniería, asignando tareas a través de sistemas de trabajo como Asana o Slack y revisando el progreso cuando se alcanza una solución. Para quienes creen en las capacidades avanzadas de la IA, este es el siguiente paso lógico en la automatización de más trabajos de software.
Kilian Lieret, investigador de Princeton y miembro del equipo de SWE-Agent, explica que al principio, las personas escribían código presionando cada tecla. GitHub Copilot fue el primer producto que ofreció autocompletar de verdad, lo que representa una evolución en este proceso. El objetivo de los sistemas de codificación autónomos es ir más allá de los entornos de desarrollo, presentando a los agentes de codificación un problema y dejándolos resolverlo por sí mismos. Lieret menciona que la meta es volver al nivel de gestión, donde simplemente se asigna un informe de error y el bot intenta solucionarlo de manera completamente autónoma. Sin embargo, este objetivo es ambicioso y ha demostrado ser complicado hasta ahora.
Después de que Devin se hiciera disponible a finales de 2024, recibió críticas duras de comentaristas en YouTube, así como una crítica más moderada de un cliente temprano en Answer.AI. La impresión general fue familiar para los veteranos de la codificación: con tantos errores, supervisar los modelos requiere tanto trabajo como realizar la tarea manualmente. A pesar de los problemas en el lanzamiento de Devin, los inversores reconocen su potencial, y en marzo, la empresa matriz de Devin, Cognition AI, recaudó cientos de millones de dólares con una valoración de 4 mil millones de dólares.
Incluso los partidarios de la tecnología advierten sobre la codificación autónoma sin supervisión, considerando a los nuevos agentes de codificación como elementos poderosos en un proceso de desarrollo supervisado por humanos. Robert Brennan, CEO de All Hands AI, que mantiene OpenHands, señala que en este momento, y en el futuro previsible, un humano debe intervenir durante la revisión del código para verificar lo que se ha escrito. Ha visto a varias personas meterse en problemas al aprobar automáticamente todo el código que genera el agente. Las “alucinaciones” son un problema continuo; Brennan recuerda un incidente en el que, al preguntar sobre una API lanzada después de la fecha límite de los datos de entrenamiento del agente, este inventó detalles de una API que encajaba con la descripción.
All Hands AI está trabajando en sistemas para detectar estas alucinaciones antes de que causen problemas, pero no hay una solución simple. Una de las mejores maneras de medir el progreso de la programación autónoma es a través de las tablas de clasificación de SWE-Bench, donde los desarrolladores pueden probar sus modelos contra un conjunto de problemas no resueltos de repositorios abiertos de GitHub. Actualmente, OpenHands ocupa el primer lugar en la tabla de clasificación verificada, resolviendo el 65.8% de los problemas. OpenAI afirma que uno de los modelos que impulsa a Codex, codex-1, puede hacerlo mejor, con un puntaje del 72.1% en su anuncio, aunque este puntaje viene con algunas advertencias y no ha sido verificado de forma independiente.
La preocupación entre muchos en la industria tecnológica es que los altos puntajes de referencia no necesariamente se traducen en una codificación verdaderamente autónoma. Si los codificadores autónomos solo pueden resolver tres de cada cuatro problemas, necesitarán una supervisión significativa de los desarrolladores humanos, especialmente al abordar sistemas complejos con múltiples etapas. Como la mayoría de las herramientas de IA, se espera que las mejoras en los modelos base lleguen a un ritmo constante, permitiendo eventualmente que los sistemas de codificación autónoma se conviertan en herramientas confiables para los desarrolladores. Sin embargo, encontrar formas de gestionar las alucinaciones y otros problemas de confiabilidad será crucial para lograrlo. Brennan concluye que hay un efecto de barrera de sonido: la pregunta es cuánta confianza se puede transferir a los agentes para que asuman más carga de trabajo al final del día.


