Un nuevo estudio sugiere que OpenAI pudo haber entrenado algunos de sus modelos de inteligencia artificial utilizando contenido protegido por derechos de autor. La empresa enfrenta demandas de autores, programadores y otros titulares de derechos que acusan a OpenAI de usar sus obras, como libros y códigos, para desarrollar sus modelos sin permiso. OpenAI ha defendido su uso bajo la doctrina de “uso justo”, pero los demandantes argumentan que no hay excepciones en la ley de derechos de autor de EE. UU. para los datos de entrenamiento.
El estudio, realizado por investigadores de la Universidad de Washington, la Universidad de Copenhague y Stanford, propone un nuevo método para identificar datos de entrenamiento “memorizados” por modelos detrás de una API, como la de OpenAI. Estos modelos son motores de predicción que, al ser entrenados con grandes cantidades de datos, aprenden patrones. Aunque la mayoría de las salidas no son copias exactas de los datos de entrenamiento, algunos resultados pueden serlo debido a la forma en que los modelos “aprenden”.
Se ha descubierto que los modelos de imagen pueden repetir capturas de pantalla de películas en las que fueron entrenados, mientras que los modelos de lenguaje han plagiado artículos de noticias. El método del estudio se basa en palabras que los coautores llaman “de alta sorpresa”, es decir, palabras que destacan por ser poco comunes en un contexto más amplio. Por ejemplo, la palabra “radar” en la frase “Jack y yo nos quedamos perfectamente quietos con el radar zumbando” sería considerada de alta sorpresa porque es menos probable que aparezca antes de “zumbando” en comparación con palabras como “motor” o “radio”.
Los coautores analizaron varios modelos de OpenAI, incluyendo GPT-4 y GPT-3.5, en busca de signos de memorización. Esto lo hicieron eliminando palabras de alta sorpresa de fragmentos de libros de ficción y artículos del New York Times, y luego hicieron que los modelos intentaran “adivinar” qué palabras habían sido ocultadas. Si los modelos adivinaban correctamente, se concluyó que probablemente habían memorizado el fragmento durante el entrenamiento.
Los resultados mostraron que GPT-4 mostró signos de haber memorizado partes de libros de ficción populares, incluyendo libros de un conjunto de datos que contiene muestras de ebooks protegidos por derechos de autor llamado BookMIA. También se sugirió que el modelo memorizó partes de artículos del New York Times, aunque a una tasa comparativamente más baja.
Abhilasha Ravichander, estudiante de doctorado en la Universidad de Washington y coautora del estudio, comentó que los hallazgos iluminan los “datos controvertidos” sobre los cuales los modelos podrían haber sido entrenados. “Para tener modelos de lenguaje grandes que sean confiables, necesitamos modelos que podamos investigar y auditar científicamente”, dijo Ravichander. “Nuestro trabajo busca proporcionar una herramienta para investigar modelos de lenguaje grandes, pero hay una necesidad real de mayor transparencia de datos en todo el ecosistema”.
OpenAI ha abogado por restricciones más flexibles en el desarrollo de modelos utilizando datos protegidos por derechos de autor. Aunque la empresa tiene ciertos acuerdos de licencia de contenido y ofrece mecanismos de exclusión que permiten a los propietarios de derechos señalar contenido que prefieren que no se use para fines de entrenamiento, ha presionado a varios gobiernos para que codifiquen reglas de “uso justo” en torno a los enfoques de entrenamiento de IA.


