Durante años, herramientas de edición de código como Cursor, Windsurf y Copilot de GitHub han sido las más utilizadas en el desarrollo de software impulsado por inteligencia artificial. Sin embargo, con el crecimiento de la IA agente y el auge del “vibe-coding”, ha habido un cambio sutil en la forma en que los sistemas de IA interactúan con el software. En lugar de trabajar únicamente en el código, ahora están interactuando directamente con el sistema en el que están instalados. Este cambio es significativo y podría tener importantes implicaciones para el futuro del desarrollo de software con IA.
El terminal, conocido como la pantalla en blanco y negro que aparece en películas de hackers de los años 90, es una forma muy antigua de ejecutar programas y manipular datos. Aunque no es tan visualmente atractivo como los editores de código modernos, es una interfaz extremadamente poderosa si se sabe utilizar. Mientras que los agentes basados en código pueden escribir y depurar, las herramientas de terminal son a menudo necesarias para llevar el software desde el código escrito a algo que realmente se pueda usar.
Las señales más claras de este cambio hacia el uso del terminal provienen de grandes laboratorios. Desde febrero, empresas como Anthropic, DeepMind y OpenAI han lanzado herramientas de codificación de línea de comandos (Claude Code, Gemini CLI y CLI Codex, respectivamente), que ya se encuentran entre sus productos más populares. Este cambio ha pasado desapercibido, ya que operan bajo la misma marca que las herramientas de codificación anteriores. Sin embargo, ha habido cambios reales en cómo los agentes interactúan con otras computadoras, tanto en línea como fuera de línea.
Algunos creen que estos cambios apenas están comenzando. Alex Shaw, co-creador del benchmark TerminalBench, afirma: “Nuestra gran apuesta es que hay un futuro en el que el 95% de la interacción entre LLM y computadoras se realiza a través de una interfaz similar a un terminal”. Las herramientas basadas en terminal están surgiendo justo cuando las herramientas basadas en código comienzan a mostrar debilidades. Por ejemplo, el editor de código AI Windsurf ha sido afectado por adquisiciones conflictivas, dejando incierto el futuro del producto.
Al mismo tiempo, investigaciones recientes sugieren que los programadores pueden estar sobreestimando las ganancias de productividad de las herramientas convencionales. Un estudio de METR que probó Cursor Pro, el principal competidor de Windsurf, encontró que, aunque los desarrolladores estimaban que podían completar tareas un 20-30% más rápido, el proceso observado fue casi un 20% más lento. Esto ha dejado espacio para empresas como Warp, que actualmente ocupa el primer lugar en TerminalBench. Warp se presenta como un “entorno de desarrollo agente”, un punto intermedio entre programas IDE y herramientas de línea de comandos como Claude Code.
Zach Lloyd, fundador de Warp, cree firmemente en el terminal como una forma de abordar problemas que estarían fuera del alcance de un editor de código como Cursor. “El terminal ocupa un nivel muy bajo en la pila de desarrollo, por lo que es el lugar más versátil para ejecutar agentes”, dice Lloyd. Para entender cómo se diferencia este nuevo enfoque, es útil observar los benchmarks utilizados para medirlos. Las herramientas basadas en código se centraban en resolver problemas de GitHub, la base de la prueba SWE-Bench.
Las herramientas basadas en terminal adoptan una visión más amplia, mirando más allá del código hacia todo el entorno en el que se ejecuta un programa. Esto incluye tareas de codificación, pero también tareas más orientadas a DevOps, como configurar un servidor Git o solucionar por qué un script no se ejecuta. En un problema de TerminalBench, se desafía al agente a invertir un algoritmo de compresión. Otro le pide al agente que construya el núcleo de Linux desde el código fuente, sin mencionar que el agente tendrá que descargar el código fuente por sí mismo.
Resolver estos problemas requiere la misma habilidad de resolución de problemas que los programadores necesitan. “Lo que hace que TerminalBench sea difícil no son solo las preguntas que estamos dando a los agentes”, dice Shaw, “sino los entornos en los que los estamos colocando”. Este nuevo enfoque implica abordar un problema paso a paso, la misma habilidad que hace que la IA agente sea tan poderosa. Sin embargo, incluso los modelos más avanzados no pueden manejar todos esos entornos. Warp obtuvo su alta puntuación en TerminalBench al resolver poco más de la mitad de los problemas, lo que refleja lo desafiante que es el benchmark y cuánto trabajo queda por hacer para desbloquear todo el potencial del terminal.
Aún así, Lloyd cree que ya estamos en un punto en el que las herramientas basadas en terminal pueden manejar de manera confiable gran parte del trabajo no relacionado con la codificación de un desarrollador. “Si piensas en el trabajo diario de configurar un nuevo proyecto, averiguar las dependencias y hacerlo ejecutable, Warp puede hacerlo prácticamente de manera autónoma”, dice Lloyd. “Y si no puede hacerlo, te dirá por qué”.


