OpenAI ha sido acusada por varias partes de entrenar su inteligencia artificial (IA) utilizando contenido protegido por derechos de autor sin permiso. Un nuevo estudio de una organización que supervisa la IA hace una grave acusación: que OpenAI ha dependido cada vez más de libros no públicos que no tenía licencia para entrenar modelos de IA más sofisticados.
Los modelos de IA son como motores de predicción complejos. Se entrenan con una gran cantidad de datos, como libros, películas y programas de televisión, para aprender patrones y formas nuevas de responder a un simple mensaje. Cuando un modelo “escribe” un ensayo sobre una tragedia griega o “dibuja” imágenes al estilo Ghibli, simplemente está utilizando su vasto conocimiento para aproximarse a lo que se le pide. No está creando nada verdaderamente nuevo.
Aunque varios laboratorios de IA, incluido OpenAI, han comenzado a usar datos generados por IA para entrenar sus modelos a medida que se agotan las fuentes del mundo real (principalmente de la web pública), pocos han evitado por completo los datos del mundo real. Esto se debe a que entrenar solo con datos sintéticos puede perjudicar el rendimiento del modelo.
El nuevo estudio, del AI Disclosures Project, una organización sin fines de lucro cofundada en 2024 por el magnate de los medios Tim O’Reilly y el economista Ilan Strauss, concluye que OpenAI probablemente entrenó su modelo GPT-4o con libros de O’Reilly Media que están detrás de un muro de pago. En ChatGPT, el GPT-4o es el modelo predeterminado. Según el estudio, O’Reilly no tiene un acuerdo de licencia con OpenAI.
Los autores del estudio señalaron que “GPT-4o, el modelo más reciente y capaz de OpenAI, muestra un fuerte reconocimiento del contenido de libros de O’Reilly que están detrás de un muro de pago, en comparación con el modelo anterior GPT-3.5 Turbo”. En contraste, el GPT-3.5 Turbo muestra un mayor reconocimiento relativo de muestras de libros de O’Reilly que son accesibles al público.
El estudio utilizó un método llamado DE-COP, introducido en un artículo académico en 2024, diseñado para detectar contenido protegido por derechos de autor en los datos de entrenamiento de modelos de lenguaje. Este método, conocido también como “ataque de inferencia de membresía”, prueba si un modelo puede distinguir de manera confiable entre textos escritos por humanos y versiones parafraseadas generadas por IA. Si puede hacerlo, sugiere que el modelo podría tener conocimiento previo del texto a partir de sus datos de entrenamiento.
Los coautores del estudio —O’Reilly, Strauss y el investigador de IA Sruly Rosenblat— examinaron el conocimiento de GPT-4o, GPT-3.5 Turbo y otros modelos de OpenAI sobre libros de O’Reilly Media publicados antes y después de sus fechas de corte de entrenamiento. Utilizaron 13,962 fragmentos de párrafos de 34 libros de O’Reilly para estimar la probabilidad de que un fragmento particular hubiera sido incluido en el conjunto de datos de entrenamiento de un modelo.
Según los resultados, GPT-4o “reconoció” mucho más contenido de libros de O’Reilly que están detrás de un muro de pago que los modelos más antiguos de OpenAI, incluido GPT-3.5 Turbo. Esto se mantuvo incluso después de considerar factores que podrían confundir los resultados, como las mejoras en la capacidad de los modelos más nuevos para identificar textos escritos por humanos.
Los coautores subrayan que esto no es una prueba definitiva. Reconocen que su método experimental no es infalible y que OpenAI podría haber recopilado fragmentos de libros de pago a partir de usuarios que los copiaron y pegaron en ChatGPT. Además, no evaluaron la colección más reciente de modelos de OpenAI, que incluye GPT-4.5 y modelos de “razonamiento” como o3-mini y o1. Es posible que estos modelos no hayan sido entrenados con datos de libros de O’Reilly detrás de un muro de pago o que hayan sido entrenados con una menor cantidad que GPT-4o.
No es un secreto que OpenAI, que ha abogado por restricciones más flexibles en el uso de datos protegidos por derechos de autor, ha estado buscando datos de entrenamiento de mayor calidad durante algún tiempo. La empresa ha llegado a contratar periodistas para ayudar a mejorar los resultados de sus modelos. Esta tendencia se observa en toda la industria de la IA, donde las empresas reclutan expertos en áreas como la ciencia y la física para que alimenten su conocimiento en los sistemas de IA.
Cabe destacar que OpenAI paga por al menos parte de sus datos de entrenamiento. La empresa tiene acuerdos de licencia con editores de noticias, redes sociales, bibliotecas de medios de stock y otros. OpenAI también ofrece mecanismos de exclusión, aunque imperfectos, que permiten a los propietarios de derechos de autor señalar contenido que preferirían que la empresa no utilizara para fines de entrenamiento. Sin embargo, mientras OpenAI enfrenta varias demandas sobre sus prácticas de datos de entrenamiento y el tratamiento de la ley de derechos de autor en los tribunales de EE. UU., el estudio de O’Reilly no presenta una imagen favorable. OpenAI no respondió a una solicitud de comentario.


