La formación de inteligencia artificial (IA) requiere grandes cantidades de datos, lo que puede resultar costoso, especialmente para empresas tecnológicas con menos recursos. Por esta razón, la Universidad de Harvard planea lanzar un conjunto de datos que incluirá alrededor de 1 millón de libros de dominio público. Estos libros abarcan diversos géneros, idiomas y autores, como Dickens, Dante y Shakespeare, que ya no están protegidos por derechos de autor debido a su antigüedad.
Este nuevo conjunto de datos aún no está disponible, y no se sabe cuándo ni cómo se lanzará. Sin embargo, se originará a partir del proyecto de escaneo de libros de Google, conocido como Google Books, lo que significa que Google estará involucrado en la distribución de esta valiosa colección.
Harvard anunció por primera vez la Iniciativa de Datos Institucionales (IDI) en marzo, destacando su intención de crear un “canal confiable para datos legales para IA”. Desde entonces, no se había tenido mucha información al respecto hasta su lanzamiento formal hoy, que también confirmó el apoyo financiero de Microsoft y OpenAI. Greg Leppert, director ejecutivo de la IDI, comentó que el objetivo del conjunto de datos es “nivelar el campo de juego” al abrir un recurso tan grande a cualquier persona, desde laboratorios de investigación hasta nuevas empresas de IA, que deseen entrenar sus modelos de lenguaje.


