Un nuevo desafío de codificación con inteligencia artificial ha anunciado a su primer ganador y ha establecido un nuevo estándar para los ingenieros de software impulsados por IA. El miércoles a las 5 p.m. PST, el Instituto Laude, una organización sin fines de lucro, reveló al ganador del K Prize, un concurso de codificación en varias rondas lanzado por Andy Konwinski, cofundador de Databricks y Perplexity. El ganador es un ingeniero de prompts brasileño llamado Eduardo Rocha de Andrade, quien recibirá un premio de 50,000 dólares. Sin embargo, lo más sorprendente fue su puntaje final: ganó respondiendo correctamente solo al 7.5% de las preguntas del examen.
“Estamos contentos de haber creado un estándar que realmente es difícil”, comentó Konwinski. “Los estándares deben ser difíciles si van a ser relevantes”, agregó, señalando que “los puntajes serían diferentes si los grandes laboratorios hubieran participado con sus modelos más potentes. Pero ese es el punto. El K Prize se lleva a cabo sin conexión y con recursos limitados, por lo que favorece a modelos más pequeños y abiertos. Me encanta eso. Iguala las oportunidades”.
Konwinski ha prometido un millón de dólares al primer modelo de código abierto que logre un puntaje superior al 90% en la prueba. Similar al conocido sistema SWE-Bench, el K Prize evalúa modelos en función de problemas señalados en GitHub, como una prueba de cuán bien pueden abordar problemas de programación del mundo real. Sin embargo, a diferencia de SWE-Bench, que se basa en un conjunto fijo de problemas, el K Prize está diseñado como una “versión libre de contaminación de SWE-Bench”, utilizando un sistema de entrada cronometrada para evitar cualquier entrenamiento específico del estándar.
Para la primera ronda, los modelos debían entregarse antes del 12 de marzo. Los organizadores del K Prize luego construyeron la prueba utilizando solo problemas de GitHub que fueron señalados después de esa fecha. El puntaje máximo del 7.5% contrasta notablemente con el SWE-Bench, que actualmente muestra un puntaje máximo del 75% en su prueba más fácil y del 34% en la más difícil. Konwinski aún no está seguro si la disparidad se debe a la contaminación en SWE-Bench o simplemente a la dificultad de recopilar nuevos problemas de GitHub, pero espera que el proyecto K Prize responda a esta pregunta pronto. “A medida que tengamos más rondas, tendremos una mejor idea”, dijo a TechCrunch, “porque esperamos que las personas se adapten a la dinámica de competir cada pocos meses”.
Puede parecer extraño que haya fallos en este ámbito, dado el amplio rango de herramientas de codificación con IA ya disponibles públicamente, pero con los estándares volviéndose demasiado fáciles, muchos críticos ven proyectos como el K Prize como un paso necesario para resolver el creciente problema de evaluación de la IA. “Estoy bastante optimista sobre la creación de nuevas pruebas para los estándares existentes”, dice Sayash Kapoor, investigador de Princeton, quien presentó una idea similar en un artículo reciente. “Sin tales experimentos, no podemos realmente saber si el problema es la contaminación, o incluso solo apuntar a la tabla de clasificación de SWE-Bench con un humano en el medio”.
Para Konwinski, no se trata solo de un mejor estándar, sino de un desafío abierto al resto de la industria. “Si escuchas el bombo, parece que deberíamos estar viendo médicos de IA, abogados de IA e ingenieros de software de IA, y eso simplemente no es cierto”, dice. “Si ni siquiera podemos superar el 10% en un SWE-Bench libre de contaminación, esa es la realidad que me hace reflexionar”.


