El CEO de Meta, Mark Zuckerberg, ha utilizado el caso de YouTube y su lucha contra el contenido pirata para defender el uso de un conjunto de datos que contiene libros electrónicos con derechos de autor, el cual se utiliza para entrenar modelos de inteligencia artificial. Esto se reveló en fragmentos de su declaración que fueron publicados recientemente. Esta declaración forma parte de una demanda relacionada con el caso de derechos de autor de inteligencia artificial Kadrey contra Meta, que es uno de muchos casos similares en los tribunales de EE. UU., donde las empresas de IA se enfrentan a autores y titulares de derechos de propiedad intelectual.
La mayoría de las empresas de IA, que son los demandados en estos casos, argumentan que entrenar modelos con contenido protegido por derechos de autor es un “uso justo”. Sin embargo, muchos titulares de derechos no están de acuerdo. Durante su declaración, Zuckerberg mencionó que YouTube intenta eliminar contenido pirata, aunque reconoce que puede haber material no autorizado en la plataforma. También expresó que la mayoría del contenido en YouTube es legal y tiene licencia.
Los fragmentos de la declaración de Zuckerberg dan pistas sobre su perspectiva respecto al contenido protegido y el uso justo. Sin embargo, no se ha publicado la transcripción completa de la declaración. Meta no ha respondido a las solicitudes de comentarios adicionales. Según la información disponible, Zuckerberg parece defender el uso de un conjunto de datos de libros electrónicos llamado LibGen para desarrollar los modelos de IA conocidos como Llama, que compiten con modelos de empresas como OpenAI.
LibGen se describe como un “agregador de enlaces” y proporciona acceso a obras con derechos de autor de editoriales como Cengage Learning y Pearson Education. Ha sido demandado varias veces y ha enfrentado multas por infracción de derechos de autor. Según documentos judiciales, Zuckerberg habría autorizado el uso de LibGen para entrenar al menos uno de los modelos Llama, a pesar de las preocupaciones legales dentro de su equipo de IA.
Los abogados de los demandantes, que incluyen a autores conocidos como Sarah Silverman y Ta-Nehisi Coates, citan a empleados de Meta que se refieren a LibGen como un “conjunto de datos que sabemos que es pirata”. Durante su declaración, Zuckerberg afirmó que no conocía LibGen y que no le parecía razonable prohibir el uso de conjuntos de datos como este. También mencionó que Meta debería ser cuidadosa al entrenar con material protegido.
Los abogados de los demandantes han modificado la demanda varias veces desde que se presentó en 2023. La última versión incluye nuevas acusaciones contra Meta, como el hecho de que la empresa cruzó referencias entre libros piratas en LibGen y libros con licencia. Se alega que Meta utilizó LibGen para entrenar sus modelos Llama 3 y que también está usando este conjunto de datos para los modelos Llama 4. Además, se afirma que los investigadores de Meta intentaron ocultar que los modelos Llama fueron entrenados con materiales protegidos al insertar “muestras supervisadas” en el ajuste fino de Llama. También se menciona que Meta descargó libros electrónicos piratas de otra fuente, Z-Library, para el entrenamiento de Llama hasta abril de 2024. Z-Library ha enfrentado acciones legales por parte de editoriales y sus supuestos mantenedores fueron acusados de infracción de derechos de autor y otros delitos en 2022.


