En los últimos años, ha surgido un fenómeno conocido como “AI slop”, que se refiere a imágenes, videos y textos de baja calidad generados por modelos de lenguaje. Este contenido ha invadido internet, afectando sitios web, redes sociales e incluso periódicos. La ciberseguridad no es ajena a este problema. En el último año, expertos en ciberseguridad han expresado su preocupación por los informes de recompensas por errores que contienen “AI slop”, es decir, reportes que afirman haber encontrado vulnerabilidades que en realidad no existen, ya que fueron creados por un modelo de lenguaje que simplemente inventó la vulnerabilidad.
Vlad Ionescu, cofundador y CTO de RunSybil, una startup que desarrolla cazadores de errores impulsados por IA, comentó que muchas veces estos informes parecen razonables y técnicamente correctos, pero al investigarlos, se descubre que eran solo “alucinaciones” del modelo. Ionescu, quien trabajó en el equipo de seguridad de Meta, explicó que uno de los problemas es que estos modelos están diseñados para ser útiles y ofrecer respuestas positivas. Esto lleva a que las personas copien y peguen estos informes en plataformas de recompensas, lo que genera confusión y frustración.
Un ejemplo reciente fue el caso de Harry Sintonen, un investigador de seguridad, quien reveló que el proyecto de seguridad de código abierto Curl recibió un informe falso. En respuesta, Benjamin Piouffle de Open Collective mencionó que su bandeja de entrada está “inundada de basura generada por IA”. Un desarrollador de código abierto, que mantiene el proyecto CycloneDX en GitHub, decidió retirar su programa de recompensas por errores después de recibir casi exclusivamente informes de “AI slop”.
Las plataformas de recompensas por errores, que actúan como intermediarias entre los hackers y las empresas que buscan solucionar fallos, también han notado un aumento en los informes generados por IA. Michiel Prins, cofundador de HackerOne, comentó que han encontrado algunos casos de “AI slop” y un aumento en los falsos positivos, que son vulnerabilidades que parecen reales pero que en realidad son generadas por modelos de lenguaje.
Casey Ellis, fundador de Bugcrowd, afirmó que hay investigadores que utilizan IA para encontrar errores y redactar informes, y que están viendo un aumento general de 500 informes por semana. Sin embargo, hasta ahora no ha habido un aumento significativo en los informes de baja calidad. El equipo de Bugcrowd revisa los informes manualmente, utilizando guías establecidas y también con asistencia de IA.
Para saber si otras empresas están recibiendo un aumento en informes inválidos o que contienen vulnerabilidades inexistentes, TechCrunch contactó a Google, Meta, Microsoft y Mozilla. Damiano DeMonte, portavoz de Mozilla, indicó que no han visto un aumento sustancial en informes inválidos que parezcan generados por IA, manteniendo una tasa de rechazo estable.
Ionescu predice que una de las soluciones al problema del “AI slop” será seguir invirtiendo en sistemas impulsados por IA que puedan realizar revisiones preliminares y filtrar las presentaciones por precisión. HackerOne lanzó recientemente un nuevo sistema llamado Hai Triage, que combina humanos y IA para identificar amenazas reales y priorizar los informes. A medida que los hackers utilizan cada vez más modelos de lenguaje y las empresas dependen de la IA para clasificar esos informes, será interesante ver cuál de las dos IA prevalecerá.


