Importación de ítems en DSpace usando el Formato de Archivo Simple (Parte 1)

Autor: José Manuel Carrizosa Bustamante

Para la publicación de nuevos documentos en un repositorio de DSpace se cuenta con la interfaz gráfica del usuario, a la cual accedemos por medio de un navegador web. El proceso de publicación de esta manera es útil cuando los autores envían sus trabajos de investigación, sin embargo, si la institución u organismo tiene una gran cantidad de documentos o trabajos listos para ser publicados, esta forma de subir los ítems al repositorio es poco eficiente.

Por ejemplo, si se tuvieran 100 trabajos de investigación que deben ser subidos al repositorio, sería complicado registrarlos por medio de los formularios en el navegador y escribiendo en cada campo de texto el metadato correspondiente, sobre todo si existen trabajos en los que no se cuenta con un metadato o por el contrario que tenga algún metadato que necesite ser repetido.

Es por eso que se presenta a continuación una guía para realizar migraciones de una manera más ordenada y eficiente,  una vez que conozca esta herramienta será fácil ponerlo en práctica.

Para ello se explica la instalación y uso de una herramienta para la generación de la estructura Simple Archive Format (explicada a continucación) y el uso del comando de importación de DSpace, el cual es usado en la consola de línea de comandos de su sistema operativo. 

Conceptos previos

Antes de comenzar con la guía es necesario conocer las definiciones de ciertos conceptos que son utilizados en el contexto de un repositorio de DSpace.

Ítem: Es un objeto digital, está conformado por los archivos que se desean preservar para su consulta y los metadatos que describen a ese conjunto de archivos.

Bitstream: Es una serie de bits que se encuentran en un medio de almacenamiento, conforman una parte del ítem, estos son interpretados de acuerdo a un formato de archivo para que puedan servir como objetos de información. Ejemplo de bitstreams son los archivos de texto, imágenes, videos, etc.

Importación: Es el proceso mediante el cual se suben los trabajos o elementos a preservar (ítems) al repositorio utilizando un archivo que contiene los metadatos para preservarlos correctamente, así como una lista de archivos para que el sistema lo interprete y pueda guardar los bitstreams.

Importación masiva: Es el proceso mediante el cual se importa un gran número de ítems al repositorio de forma conjunta.

Simple Archive Format

Las importaciones en DSpace pueden ser sólo de metadatos o puede darse el caso de que se requieran subir nuevos elementos del repositorio, siendo el elemento o ítem el conjunto de los metadatos y sus bitstreams. Para la importación de elementos en DSpace con sus bitstreams correspondientes se requiere del uso de Simple Archive Format.

Simple Archive Format  (Formato de Archivo Simple), abreviado SAF es una estructura de carpetas y archivos que contiene un subdirectorio por cada ítem. Cada subdirectorio contiene un archivo para los metadatos que describen el ítem y los archivos de los que se compone el ítem. 

Las importaciones se realizan con el comando DSpace import y también pueden realizarse con la interfaz gráfica de usuario de DSpace. Para los dos casos las características que tiene SAF son las siguientes: 

  • La estructura de SAF comienza con una carpeta o directorio que contiene tantas carpetas como ítems se tengan. Un ítem es la unión de los metadatos y los archivos que guardan una relación. 
  • Cada ítem tendrá su propia carpeta, puede tener cualquier nombre, pero se debe tomar en cuenta que este influye en el orden en que se realizarán las importaciones. Se recomienda seguir una nomenclatura apropiada al proyecto.
  • En la carpeta del ítem se encontrarán archivos para ese ítem específico que son el archivo de metadatos del esquema dc (para dublin core), archivo de metadatos de otros esquemas (opcional), archivo que lista el contenido del ítem, archivo que lista las colecciones en la que estará el ítem (opcional), y los archivos que serán guardados para su consulta o bitstreams que pueden ser de distintos formatos. 

A continuación, se describe el contenido de los archivos de la carpeta del ítem. 

Metadatos del esquema dublincore  (dublincore.xml)

Dublincore es un modelo de metadatos elaborado por la DCMI (Dublin Core Metadata Initiative) que se encarga de promover el desarrollo de vocabularios especializados de metadatos para describir recursos y permitir a sistemas inteligentes el descubrimiento del recurso.

El archivo dublin_core.xml es un archivo que contiene los metadatos del ítem del esquema dc. Este esquema está basado en dublincore y para la importación se usa la implementación en XML.

Esto quiere decir que se tendrá una etiqueta por cada metadato del ítem, la etiqueta tendrá los atributos element, qualifier y language (opcional), los cuales deben indicar de forma correspondiente el nombre del elemento de dublincore, el adjetivo o calificador para la especificación del elemento y el lenguaje en que se escribe el valor para dicho elemento.

Es importante notar que algunos elementos de dublincore se pueden repetir en caso de ser necesario. 

Ejemplo de Dublin Core en XML

Otros esquemas de metadatos (metadata_[prefix].xml) 

Para utilizar otros esquemas se debe especificar mediante otro archivo XML, en este caso la etiqueta dublin_core, deberá indicar el nombre del esquema que se requiere en el atributo schema. Este nombre de esquema deberá estar previamente registrado en el registro de metadatos. 

Licencia (license)

Si se desea incluir una licencia, esta se debe escribir en un archivo de texto llamado license y debe estar listado en el archivo contents.

Colecciones (collections)

En este archivo se listan las colecciones en que se encontrará el ítem en cuestión. 

Si se señala la colección junto al comando dspace import, se ignorarán los archivos collections en cada ítem, por lo que todos los ítems se guardarán en la colección previamente indicada. 

Si no se señala la colección junto al comando dspace import, solo se importarán aquellos ítems que contengan el archivo collection. 

La primera colección de la lista será la colección principal o dueña del ítem, las siguientes colecciones se indicarán una por cada línea y se señala utilizando el handle de la colección. Dicho handle se puede encontrar al visitar la colección en la página web y verificar la url de la colección, el handle consta de dos grupos de números separados por una diagonal, ejemplo: 123456789/15 

El handle se puede encontrar en la url

Contenido (contents)

En este archivo de texto plano, se debe escribir cada archivo que pertenezca al ítem, estos pueden ser de diferentes tipos como imágenes, videos, documentos de texto, etcétera. Se debe escribir uno por cada línea indicando el nombre completo del archivo junto a su extensión. También se listará el archivo de licencia si es que se cuenta con uno.

Además de los archivos propios del ítem. También se puede indicar el Bundle (espacio donde se encuentra un conjunto de archivos, por ejemplo, original, thumbnail, license), los permisos y la descripción del archivo. 

Archivos (bitstreams)

Finalmente tenemos los archivos multimedia y de texto que componen al ítem, estos se deben de encontrar en el mismo nivel que el archivo dublin_core.xml y deben de estar listados en el archivo contents. 

Comprender el Formato de Archivo Simple es importante, ya que de esta estructura depende el resultado que se verá reflejado en el repositorio. En esta primera parte se explicó de qué se conforma el Formato de Archivo Simple, en la parte dos se explica cómo utilizar un empaquetador para generar la estructura del Formato de Archivo simple de una forma eficiente.

La información proporcionada se obtuvo de la documentación oficial de DSpace que se puede encontrar la siguiente dirección:  en https://wiki.lyrasis.org/display/DSDOC6x/Importing+and+Exporting+Items+via+Simple+Archive+Format.

Elaborado por:

José Manuel Carrizosa Bustamante

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *