EleutherAI, una organización de investigación en inteligencia artificial, ha lanzado una de las colecciones más grandes de textos con licencia y de dominio abierto para entrenar modelos de IA. Este conjunto de datos, llamado The Common Pile v0.1, tardó aproximadamente dos años en completarse, en colaboración con startups de IA como Poolside y Hugging Face, así como con varias instituciones académicas. Con un tamaño de 8 terabytes, The Common Pile v0.1 se utilizó para entrenar dos nuevos modelos de IA de EleutherAI, Comma v0.1-1T y Comma v0.1-2T, que la organización afirma que rinden de manera comparable a modelos desarrollados con datos no licenciados y protegidos por derechos de autor.
Las empresas de IA, incluida OpenAI, están enfrentando demandas por sus prácticas de entrenamiento de IA, que dependen de la recopilación de contenido de la web, incluyendo material protegido como libros y revistas de investigación. Aunque algunas empresas de IA tienen acuerdos de licencia con ciertos proveedores de contenido, la mayoría sostiene que la doctrina legal de uso justo en EE. UU. las protege de responsabilidades en casos donde entrenaron con trabajos protegidos sin permiso.
EleutherAI argumenta que estas demandas han “disminuido drásticamente” la transparencia de las empresas de IA, lo que ha perjudicado el campo de investigación de IA en general, dificultando la comprensión de cómo funcionan los modelos y cuáles son sus fallos. Stella Biderman, directora ejecutiva de EleutherAI, escribió en un blog en Hugging Face que las demandas no han cambiado significativamente las prácticas de obtención de datos en el entrenamiento de modelos, pero sí han reducido la transparencia de las empresas.
The Common Pile v0.1, que se puede descargar desde la plataforma de desarrollo de IA de Hugging Face y GitHub, fue creado en consulta con expertos legales y se basa en fuentes que incluyen 300,000 libros de dominio público digitalizados por la Biblioteca del Congreso y la Internet Archive. EleutherAI también utilizó Whisper, el modelo de conversión de voz a texto de código abierto de OpenAI, para transcribir contenido de audio.
EleutherAI afirma que Comma v0.1-1T y Comma v0.1-2T son prueba de que The Common Pile v0.1 fue curado de manera cuidadosa, permitiendo a los desarrolladores construir modelos competitivos con alternativas propietarias. Según EleutherAI, ambos modelos, que tienen 7 mil millones de parámetros y fueron entrenados solo con una fracción de The Common Pile v0.1, rivalizan con modelos como el primer modelo Llama de Meta en pruebas de codificación, comprensión de imágenes y matemáticas.
Los parámetros, a veces llamados pesos, son los componentes internos de un modelo de IA que guían su comportamiento y respuestas. Biderman escribió que la idea común de que el texto no licenciado impulsa el rendimiento es injustificada. A medida que crece la cantidad de datos accesibles con licencia abierta y de dominio público, se espera que mejore la calidad de los modelos entrenados con contenido con licencia abierta.
The Common Pile v0.1 parece ser parte de un esfuerzo de EleutherAI por corregir errores históricos. Hace años, la empresa lanzó The Pile, una colección abierta de textos de entrenamiento que incluye material protegido. Las empresas de IA han sido criticadas y presionadas legalmente por usar The Pile para entrenar modelos. EleutherAI se compromete a lanzar conjuntos de datos abiertos con más frecuencia en colaboración con sus socios de investigación e infraestructura.

