Durante años, empleados de Meta han discutido internamente el uso de obras protegidas por derechos de autor obtenidas de manera legalmente cuestionable para entrenar los modelos de inteligencia artificial de la empresa, según documentos judiciales revelados recientemente. Estos documentos fueron presentados por los demandantes en el caso Kadrey contra Meta, que es uno de los muchos conflictos sobre derechos de autor relacionados con la inteligencia artificial que están avanzando lentamente en el sistema judicial de EE. UU.
Meta argumenta que entrenar modelos con obras protegidas por propiedad intelectual, especialmente libros, se considera “uso justo”. Sin embargo, los demandantes, que incluyen a los autores Sarah Silverman y Ta-Nehisi Coates, no están de acuerdo. Documentos anteriores en el caso alegaban que el CEO de Meta, Mark Zuckerberg, había autorizado al equipo de IA de la empresa a entrenar con obras protegidas, y que Meta había detenido las negociaciones para licenciar datos de entrenamiento con editores de libros.
Los nuevos documentos, que incluyen partes de conversaciones internas entre empleados de Meta, muestran cómo la empresa pudo haber utilizado datos protegidos por derechos de autor para entrenar sus modelos, incluidos los de la familia Llama. En una conversación, empleados como Melanie Kambadur, gerente senior del equipo de investigación del modelo Llama, discutieron sobre entrenar modelos con obras que sabían que podrían ser problemáticas legalmente.
Un ingeniero de investigación de Meta, Xavier Martinet, sugirió que deberían intentar adquirir libros y escalar la decisión a los ejecutivos, argumentando que “muchas startups probablemente ya estaban utilizando libros pirateados para su entrenamiento”. Kambadur también mencionó que Meta estaba en conversaciones con la plataforma de alojamiento de documentos Scribd para obtener licencias, pero advirtió que usar “datos disponibles públicamente” requeriría aprobaciones.
Además, Kambadur consideró la posibilidad de utilizar Libgen, un agregador de enlaces que proporciona acceso a obras protegidas, como una alternativa a las fuentes de datos que Meta podría licenciar. Libgen ha enfrentado múltiples demandas por infracción de derechos de autor. En un correo electrónico dirigido a Joelle Pineau, vicepresidenta de IA de Meta, Sony Theakanath, director de gestión de productos, describió a Libgen como “esencial para alcanzar los mejores números en todas las categorías” de modelos de IA.
Los documentos también revelan que el equipo de IA de Meta ajustó sus modelos para “evitar indicaciones de riesgo de propiedad intelectual”, es decir, configuraron los modelos para rechazar preguntas sobre obras específicas. Además, se sugiere que Meta pudo haber recopilado datos de Reddit para algún tipo de entrenamiento de modelos.
Los demandantes han modificado su queja varias veces desde que se presentó el caso en 2023, alegando que Meta cruzó referencias entre ciertos libros pirateados y libros protegidos para evaluar si debía buscar un acuerdo de licencia con un editor. Para reforzar su defensa, Meta ha incorporado a dos litigantes de la Corte Suprema de la firma Paul Weiss. La empresa no ha respondido de inmediato a las solicitudes de comentarios.


