Después del acuerdo de 1.5 mil millones de dólares de Anthropic por derechos de autor, la industria de la inteligencia artificial (IA) está enfrentando un problema importante con los datos que utiliza para entrenar sus modelos. Hay alrededor de 40 casos pendientes que buscan compensaciones por el uso de datos sin licencia, incluyendo uno que demanda a Midjourney por crear imágenes de Superman. Sin un sistema de licencias, las empresas de IA podrían enfrentar una avalancha de demandas por derechos de autor, lo que algunos temen que retrase la industria de manera permanente.
Recientemente, un grupo de tecnólogos y editores web ha lanzado un sistema llamado Real Simple Licensing (RSL), que permitiría licenciar datos a gran escala, siempre que las empresas de IA decidan adoptarlo. Este sistema ya cuenta con el apoyo de grandes editores web como Reddit, Quora y Yahoo. La pregunta ahora es si este impulso será suficiente para que los principales laboratorios de IA se sienten a negociar.
Eckart Walther, cofundador de RSL y también creador del estándar RSS, explicó que el objetivo es crear un sistema de licencias para datos de entrenamiento que funcione en toda la red. “Necesitamos acuerdos de licencia legibles por máquinas para internet”, dijo Walther. Durante años, grupos como el Dataset Providers Alliance han abogado por prácticas de recolección más claras, pero RSL es el primer intento de establecer una infraestructura técnica y legal que lo haga posible.
Desde el lado técnico, el Protocolo RSL establece términos específicos de licencia que un editor puede definir para su contenido, ya sea que las empresas de IA necesiten una licencia personalizada o adopten disposiciones de Creative Commons. Los sitios web participantes incluirán estos términos en su archivo “robots.txt” en un formato preestablecido, facilitando la identificación de qué datos están bajo qué términos.
En el aspecto legal, el equipo de RSL ha creado una organización de licencias colectiva, el RSL Collective, que puede negociar términos y recaudar regalías, similar a ASCAP para músicos o MPLC para películas. El objetivo es ofrecer a los licenciantes un único punto de contacto para el pago de regalías y permitir a los titulares de derechos establecer términos con múltiples licenciantes a la vez.
Varios editores web ya se han unido al colectivo, incluyendo Yahoo, Reddit, Medium y O’Reilly Media. Otros, como Fastly, Quora y Adweek, apoyan el estándar sin unirse al colectivo. Es importante destacar que el RSL Collective incluye editores que ya tienen acuerdos de licencia, como Reddit, que recibe aproximadamente 60 millones de dólares al año de Google por el uso de sus datos de entrenamiento.
No hay nada que impida a las empresas negociar sus propios acuerdos dentro del sistema RSL, al igual que Taylor Swift puede establecer términos especiales para licencias mientras sigue recibiendo regalías a través de ASCAP. Sin embargo, para los editores más pequeños que no pueden negociar sus propios acuerdos, los términos colectivos de RSL probablemente serán su única opción.
Aunque es fácil determinar cuándo se ha reproducido una canción, los modelos de IA presentan desafíos únicos para saber cuándo se deben pagar regalías por un dato específico de entrenamiento. Esto es más sencillo para productos como Google’s AI Search Abstracts, que obtienen datos de la web en tiempo real y mantienen una estricta atribución para cada hecho. Pero si el entrenamiento no se registra cuando ocurre, puede ser casi imposible confirmar que un documento específico fue utilizado en un modelo de lenguaje.
A pesar de estos desafíos, los creadores de RSL creen que las empresas de IA podrán manejar la complejidad. “Algunos de los acuerdos de licencia que ya han hecho les han requerido poder informar sobre ello, así que es posible”, dice Doug Leeds, cofundador de RSL. “No tiene que ser perfecto. Solo tiene que ser lo suficientemente bueno para que la gente reciba su pago”.
La gran pregunta es si las empresas de IA adoptarán el sistema. Como muestran los éxitos de empresas como ScaleAI y Mercor, los laboratorios de frontera no tienen problemas para pagar por datos, pero la web ha sido vista tradicionalmente como una fuente de datos baratos y de baja calidad. Con conjuntos de datos como Common Crawl ya disponibles, podría ser un desafío extraer regalías de algo que los laboratorios están acostumbrados a obtener gratis.
Recientemente, Leeds mencionó comentarios de líderes de IA que piden un sistema como RSL, destacando a Sundar Pichai en la cumbre Dealbook del año pasado. Independientemente de si estos llamados son sinceros o no, el equipo de RSL planea hacerlos responsables. “Han dicho públicamente que algo como esto necesita existir”, comentó Leeds. “Necesitamos un protocolo. Necesitamos un sistema”. Ahora, parece que podrían tener uno.


