Nota a esta edición digital

Xavier Agenjo Bullón
Director de Proyectos de la Fundación Ignacio Larramendi

Luiciano Pereña. RetratoEl 15 de julio de 2020 la Universidad Francisco de Vitoria y la Fundación Ignacio Larramendi firmaron un convenio para desarrollar proyectos relacionados con las Humanidades Digitales y la Inteligencia Artificial, como se puede ver en esta noticia, y ocho meses después la propia Universidad concedió una ayuda para llevar a cabo un proyecto que lleva el nombre de «Prueba de Concepto para implementar una biblioteca virtual sobre el legado Luciano Pereña», cuyos resultados se publicarían en la web, fruto de ese convenio y de esas ayudas.

El proyecto de llevar a cabo una biblioteca virtual del Legado Pereña es en sí mismo un proyecto extraordinario por la riqueza del fondo, pero también porque se quiere llevar a cabo un proyecto ulterior para transformar automáticamente, con ayuda de herramientas de Inteligencia Artificial, la codificación de la disposición de textos en formato Analyzed Layout and Text Object (ALTO) a la codificación estructural que prescribe la Text Encoding Initiative (TEI). Se ha querido con ello avanzar sobre las técnicas manuales que se aplican en la transformación individualizada de textos de gran calidad, como es el caso de Die Schule von Salamanca: Eine digitale Quellensammlung und ein Wörterbuch ihrer juristisch-politischen Sprache, desarrollado por el Max Planck Institut. Disponer de textos codificados conforme a TEI será el origen de muchos otros desarrollos todavía por definir que pueden ser muchos y variados.

Esta forma de proceder que quizá se pueda decir que es una estrategia –tal y como se expone en el artículo de Xavier Agenjo Bullón: «Las bibliotecas virtuales españolas y el tratamiento textual de los recursos bibliográficos», publicado en Ínsula: Revista de Letras y Ciencias Humanas, N.º 822, 2015, págs. 12-15– tiene un inmenso recorrido porque en la actualidad hay por todo el mundo, y en concreto en España como se puede ver en los proyectos de la Biblioteca Virtual de Prensa Histórica y la Biblioteca Virtual de Patrimonio Bibliográfico, centenares de millones de objetos digitales codificados en formato ALTO.

Software

La prueba de concepto para implementar una biblioteca virtual que contenga los materiales bibliográficos que el profesor Luciano Pereña recopiló a lo largo de su vida se va llevar a cabo con el software DIGIBIB, desarrollado por DIGIBÍS, empresa filial de la Fundación Ignacio Larramendi, creada por el propio Ignacio Larramendi. Esos materiales bibliográficos se publicaron en el Consejo Superior de Investigaciones Científicas bajo el título Corpus Hispaniorum de Pace, un inventario de fuentes y documentos claves para la interpretación histórica de la Escuela de Salamanca.

El software DIGIBIB es ampliamente utilizado por más de 50 proyectos digitales, entre los que se pueden destacar, por su afinidad temática y tecnológica, la Biblioteca Virtual del Patrimonio Bibliográfico que ha implementado el Ministerio de Cultura; Galiciana, la Biblioteca Dixital de Galicia; la Biblioteca Digital de Castilla y León; la Biblioteca Virtual del Ministerio de Defensa; o la Biblioteca Digital de la Comunidad Autónoma de Madrid. Coincidiendo con esa prueba de concepto, DIGIBÍS está implementando el proyecto Euskariana, que reúne en una única instalación todas las distintas funcionalidades con las que cuentan esta bibliotecas por separado y que tiene previsto ofrecer un conjunto de colecciones de datos de bibliotecas, archivos y museos muy ambicioso.

Linked Open Data

La Biblioteca Virtual de Polígrafos de la Fundación Ignacio Larramendi está también implementada en el software DIGIBIB y de ella forma parte la Biblioteca Virtual de la Escuela de Salamanca. Esta biblioteca virtual ha sido caso de estudio del W3C Library Linked Data Incubator Group, cuyos informes finales traducidos al español se pueden consultar en la página Documentación técnica del W3C LLD, y de Europeana Data Model, modelo de datos de Europeana, la gran biblioteca virtual de la Unión Europea. Esta ontología permite una descripción de los objetos digitales especialmente coherente y, lo que es más importante, en un entorno RDF.

La aplicación de la tecnología Linked Open Data encaja como un guante para describir los objetos digitales y, sobre todo, sus relaciones semánticas. Una descripción más precisa y más amplia se puede leer en el artículo de Xavier Agenjo, Francisca Hernández y Andrés Viedma. «Data Aggregation and Dissemination of Authority Records through Linked Open Data in a European Context». Cataloging & Classification Quarterly, ISSN 1544-4554, Vol. 50, n. 8, 2012, p. 803-829. Este artículo fue una ampliación de la comunicación que hicieron los autores en el 77 Congreso de IFLA celebrado en Puerto Rico en 2011.

Más recientemente Agenjo y Hernández han publicado Visibility and Digital Accessibility of the School of Salamanca in a Linked Open-Data Environment, en las Salamanca Working Papers Series que edita el proyecto Die Schule von Salamanca: Eine digitale Quellensammlung und ein Wörterbuch ihrer juristisch-politischen Sprache, dirigido por la Akademie der Wissenschaften und der Literatur, el Institut für Philosophie de la Goethe-Universität, y el Max-Planck-Institut für europäische Rechtsgeschichte. Hay que destacar la afinidad de la prueba de concepto con el proyecto Die Schule von Salamanca y, por supuesto, con la Biblioteca Virtual de la Escuela de Salamanca. Las tres iniciativas tejen un entramado sumamente coherente.

Es obligado citar los proyectos de enriquecimiento semántico de la información bibliográfico que se han llevado a cabo justamente en la Biblioteca Virtual de la Escuela de Salamanca, así como la agregación de contenidos a través de puntos de servicio SPARQL que se utilizó con el proyecto de la Biblioteca Virtual de Novatores.

Pautas aplicadas a la prueba de concepto

Esta prueba de concepto ha seguido también las pautas que ha ido estableciendo el Ministerio de Cultura para los proyectos de digitalización que con tanto éxito se han llevado a cabo desde hace casi 20 años. Las Directrices para proyectos de digitalización de colecciones y fondos de dominio público, en particular para aquellos custodiados en bibliotecas y archivos se pueden consultar en el sitio Travesía que mantiene la Subdirección General de Coordinación Bibliotecaria.

Entre esta normativa destaca la descripción de los objetos digitales conforme al formato MARC 21, en su última versión de junio de 2021, para registros de autoridad, registros bibliográficos y de fondos y localizaciones. De hecho, el enriquecimiento semántico de los autores se concentra en una serie de etiquetas del formato MARC 21, especialmente la etiqueta 024 donde se consignan los correspondientes URIs de las descripciones procedentes, tal y como recomienda el informe del W3C Library Linked Data Incubator Group sobre vocabularios de valores. El enriquecimiento semántico afecta no solo a los registros de autoridad de persona, sino también a las descripciones bibliográficas que están enriquecidas con términos de vocabularios de valores de materias tales como la Lista de Encabezamientos de Materia para Bibliotecas Públicas, datos.bne.es, o Wikidata.

También las pautas que ha ido estableciendo la Subdirección General de Coordinación Bibliotecaria recomiendan el uso del esquema de metadatos METS (Metadata Encoding & Transmission Standard) para encapsular los diferentes tipos de metadatos descriptivos, administrativos y estructurales, siguiendo una serie de perfiles que están registrados en el sitio oficial de esta norma que mantiene la Library of Congress. En cualquier caso, para la prueba de concepto el perfil utilizado ha sido el registrado por la propia Subdirección General de Coordinación Bibliotecaria «Spanish Virtual Library of Bibliographical Heritage - Digital Resources Ingest and Preservation BVPB-METS profile».

En cuanto a la codificación de los textos obtenidos a partir de los procesos de OCR las Directrices aconsejan el uso del esquema de metadatos Analyzed Layout and Text Object (ALTO) que se ha convertido en un estándar de facto desde el momento en que la Library of Congress asumió el mantenimiento y actualización de esta norma.

Para llevar a cabo esta prueba de concepto, DIGIBÍS ha digitalizado dos monografías, un impreso de la primera edición de la obra de Francisco de Vitoria, Relectiones theologicae XII, Lyon, 1557, y un manuscrito de Bartolomé de Carranza con el título de Incipiunt annotationes in Secundam Secundae divi Thomae… (1540).

Como se puede ver, el registro bibliográfico de Francisco de Vitoria está descrito, como se ha dicho, en formato MARC 21 para registros bibliográficos, utilizando las técnicas de descripción del fondo antiguo, así como los Resource Description and Access (RDA), tal y como permite justamente la codificación del formato MARC 21. Como se ha explicado, el registro de autoridad del autor del libro, es decir, Francisco de Vitoria, está muy enriquecido semánticamente con un número muy alto de vocabularios de valores y a través de sus URI y URL. También sus materias han sido enriquecidas con vínculos de las materias de la Biblioteca Nacional de España y Wikidata.

El objeto digital resultado de la digitalización y del proceso de OCR conforme a las pautas más arriba mencionadas se ajusta al formato METS y ALTO, sin olvidar que se incorporan también los metadatos de preservación codificados según PREMIS Data Dictionary for Preservation Metadata.

También la prueba de concepto ha digitalizado el libro publicado con el propio Luciano Pereña y Jorge Conde que describe justamente el legado y a partir del cual se quiere implementar la biblioteca virtual. Ese libro está digitalizado con las mismas características mencionadas más arriba y a partir del OCR se van a vincular las descripciones de los 250 monografías que componen el Legado Pereña.

Artículos Relacionados

Esas prácticas se han descrito y publicado en los siguientes artículos:

Por supuesto, las notas a las ediciones de las bibliotecas virtuales de la Escuela de Salamanca, de Novatores, MAPFRE 1492 y Clásicos Tavera van dando buena cuenta de estas prácticas.