Microsoft está lanzando un proyecto de investigación para entender cómo ejemplos específicos de entrenamiento afectan el texto, imágenes y otros tipos de medios que crean los modelos de inteligencia artificial generativa. Esta información proviene de una oferta de trabajo publicada en diciembre que se ha vuelto a compartir en LinkedIn. Según la oferta, que busca un pasante de investigación, el proyecto intentará demostrar que los modelos pueden ser entrenados de manera que se pueda estimar de forma “eficiente y útil” el impacto de ciertos datos, como fotos y libros, en sus resultados.
La oferta menciona que “las arquitecturas actuales de redes neuronales son opacas en cuanto a proporcionar fuentes para sus generaciones, y hay buenas razones para cambiar esto”. Una de estas razones es ofrecer incentivos, reconocimiento y posiblemente remuneración a las personas que contribuyan con datos valiosos para modelos futuros.
Los generadores de texto, código, imágenes, videos y canciones impulsados por inteligencia artificial están en el centro de varias demandas por propiedad intelectual contra empresas de IA. A menudo, estas empresas entrenan sus modelos con grandes cantidades de datos de sitios web públicos, algunos de los cuales están protegidos por derechos de autor. Muchas de estas empresas argumentan que la doctrina de uso justo protege sus prácticas de recopilación y entrenamiento de datos, pero los creativos, desde artistas hasta programadores y autores, en su mayoría no están de acuerdo. Microsoft enfrenta al menos dos desafíos legales de titulares de derechos de autor. En diciembre, The New York Times demandó a Microsoft y a su colaborador OpenAI, acusándolos de infringir los derechos de autor de The Times al utilizar modelos entrenados con millones de sus artículos. Varios desarrolladores de software también han demandado a Microsoft, alegando que el asistente de codificación AI GitHub Copilot fue entrenado ilegalmente con sus obras protegidas.
El nuevo esfuerzo de investigación de Microsoft, descrito como “proveniencia en el tiempo de entrenamiento”, cuenta con la participación de Jaron Lanier, un destacado tecnólogo y científico interdisciplinario en Microsoft Research. En un artículo de opinión en abril de 2023 en The New Yorker, Lanier habló sobre el concepto de “dignidad de los datos”, que para él significa conectar “cosas digitales” con “las personas que quieren ser reconocidas por haberlas creado”.
Lanier propuso que un enfoque de dignidad de datos rastrearía a los contribuyentes más únicos e influyentes cuando un modelo grande proporciona un resultado valioso. Por ejemplo, si se le pide a un modelo “una película animada de mis hijos en un mundo de pintura al óleo con gatos que hablan en una aventura”, ciertos pintores de óleo, retratistas de gatos, actores de voz y escritores podrían ser reconocidos como esenciales para la creación de esa nueva obra maestra, y podrían recibir reconocimiento y compensación.
Ya hay varias empresas intentando implementar esto. Bria, un desarrollador de modelos de IA que recientemente recaudó 40 millones de dólares en capital de riesgo, afirma que compensa “programáticamente” a los propietarios de datos según su “influencia general”. Adobe y Shutterstock también otorgan pagos regulares a los contribuyentes de conjuntos de datos, aunque los montos exactos suelen ser poco claros. Pocas grandes empresas han establecido programas de pago para contribuyentes individuales, y en su lugar han proporcionado medios para que los titulares de derechos de autor “optar por no participar” en el entrenamiento. Sin embargo, algunos de estos procesos de exclusión son complicados y solo se aplican a modelos futuros, no a los ya entrenados.
El proyecto de Microsoft podría ser solo una prueba de concepto. Hay un precedente para esto. En mayo, OpenAI anunció que estaba desarrollando tecnología similar que permitiría a los creadores especificar cómo quieren que sus obras sean incluidas o excluidas de los datos de entrenamiento. Pero casi un año después, la herramienta aún no ha sido lanzada y no se ha considerado una prioridad interna.
Microsoft también podría estar intentando “lavar su ética” o anticiparse a decisiones regulatorias y judiciales que podrían afectar su negocio de IA. Sin embargo, es notable que la empresa esté investigando formas de rastrear los datos de entrenamiento, especialmente a la luz de las recientes posturas de otros laboratorios de IA sobre el uso justo. Varios de los principales laboratorios, incluidos Google y OpenAI, han publicado documentos de política recomendando que la administración de Trump debilite las protecciones de derechos de autor en relación con el desarrollo de IA. OpenAI ha pedido explícitamente al gobierno de EE. UU. que codifique el uso justo para el entrenamiento de modelos, argumentando que esto liberaría a los desarrolladores de restricciones onerosas. Microsoft no respondió de inmediato a una solicitud de comentarios.


