La Fundación Wikimedia, que es la organización detrás de Wikipedia y otros proyectos de conocimiento colaborativo, anunció el miércoles que el consumo de ancho de banda para descargas multimedia desde Wikimedia Commons ha aumentado un 50% desde enero de 2024. Este aumento no se debe a una mayor demanda de usuarios, sino a los “scrapers”, que son programas automáticos que buscan datos para entrenar modelos de inteligencia artificial.
En un blog, la Fundación explicó que su infraestructura está diseñada para manejar picos de tráfico de usuarios humanos durante eventos de gran interés. Sin embargo, el tráfico generado por estos bots es sin precedentes y representa riesgos y costos crecientes. Wikimedia Commons es un repositorio accesible de imágenes, videos y archivos de audio que están disponibles bajo licencias abiertas o son de dominio público.
Wikimedia reveló que casi dos tercios (65%) del tráfico más “costoso”, es decir, el que consume más recursos, proviene de bots. Sin embargo, solo el 35% de las vistas de página totales son de estos bots. La razón de esta diferencia es que el contenido que se accede con frecuencia se almacena más cerca del usuario, mientras que el contenido menos visitado se guarda en un “centro de datos central”, que es más caro de servir. Los bots suelen buscar este tipo de contenido menos accesible.
La Fundación también mencionó que los lectores humanos tienden a enfocarse en temas específicos, mientras que los bots tienden a leer en “masa” un mayor número de páginas, incluyendo las menos populares. Esto significa que estas solicitudes son más propensas a ser enviadas al centro de datos central, aumentando así los costos.
Como resultado, el equipo de confiabilidad del sitio de la Fundación Wikimedia está dedicando mucho tiempo y recursos a bloquear a los crawlers para evitar interrupciones para los usuarios regulares. Además, deben considerar los costos en la nube que enfrenta la Fundación.
Este problema es parte de una tendencia en crecimiento que amenaza la existencia misma de internet abierto. El mes pasado, el ingeniero de software y defensor del código abierto Drew DeVault lamentó que los crawlers de IA ignoren los archivos “robots.txt”, que están diseñados para evitar el tráfico automatizado. También, el ingeniero Gergely Orosz se quejó de que los scrapers de IA de empresas como Meta han aumentado la demanda de ancho de banda para sus propios proyectos.
Mientras que la infraestructura de código abierto está en la mira, los desarrolladores están respondiendo con “inteligencia y venganza”. Algunas empresas tecnológicas, como Cloudflare, están tomando medidas para abordar el problema; recientemente lanzaron AI Labyrinth, que utiliza contenido generado por IA para ralentizar a los crawlers. Sin embargo, esto se convierte en un juego del gato y el ratón que podría obligar a muchos editores a protegerse detrás de inicios de sesión y muros de pago, lo que perjudicaría a todos los usuarios de la web hoy en día.


