Importación de ítems en DSpace usando el Formato de Archivo Simple (Parte 2)

Etapa previa de la importación

Como se mencionó en la parte 1, la importación masiva es útil cuando se tienen varios trabajos listos. Una vez que se tiene ese conjunto de trabajos, se recomienda realizar lo siguiente:

  • Tener los archivos que se subirán como bitstreams listos (imágenes, documentos, videos, etc), estos deben organizarse en una carpeta a la cual se le asignará un nombre de acuerdo al proyecto de migración (por ejemplo el nombre de la colección), esto para una mejor organización. Asegúrese de tener un identificador en el nombre de los archivos para que pueda ser utilizado que pueda ser relacionado en el archivo csv  que se creará.
  • Crear una base de datos en un software de hoja de cálculo que contenga una fila de encabezado por cada metadato que se va a describir, también debe existir una columna con un identificador que permita reconocer cuáles archivos se le asociarán al ítem en el archivo csv. Esta base de datos tendrá una  fila por cada ítem.  
  • Designar al técnico o persona encargada para ejecutar la migración, esta debe tener acceso a la consola de comandos de su servidor de DSpace. A esta persona se le proporcionará la carpeta que contiene los bitstreams para que los pueda copiar y con ello realizar la manipulación correspondiente. También se le proporcionará la base de datos realizada en la hoja de cálculo. Cuando el encargado de la migración tenga esos archivos procederá a utilizar el empaquetador.
  • El encargado de la migración  creará un archivo csv conforme a las siguientes especificaciones:  El archivo csv, contiene una fila o línea de encabezado con el nombre de los elementos de dublincore. Por cada ítem se tiene una columna con el nombre de los archivos y otras columnas para los elementos del esquema dublincore. Los campos se pueden repetir y también se puede utilizar una doble barra vertical para señalar varios valores en una misma columna.
  • Es conveniente editar este archivo con una aplicación de hojas de cálculo, aunque puede visualizarse con cualquier editor de texto.
Archivo CSV abierto con un editor de texto

Simple Archive Format Packager (Empaquetador)

Para la ingestión de elementos en DSpace es necesario contar con un input en el formato SAF, para crear esta estructura, existen herramientas que ayudan a esta tarea, aunque están escritas en diferentes lenguajes como Java o Python, muchas de estas tienen la capacidad de generar el Formato de Archivo Simple con ayuda de un archivo CSV, como se señala en Simple Archive Format Packager – DSpace – LYRASIS Wiki.

Uno de los proyectos que se pueden utilizar en este caso es SAFBuilder que se encuentra en DSpace-Labs/SAFBuilder: Builds a Simple Archive Format package from files and a spreadsheet (github.com).

SAFBuilder es una aplicación de consola, de modo que no tendrá una ventana, botones o cajas de texto donde pueda escribir los datos, sino que esta tendrá que ser ejecutada en la consola o terminal de su sistema operativo y las opciones se establecerán escribiéndolas al momento de ejecutar el archivo correspondiente.

 

Entorno de desarrollo

La ejecución de esta herramienta requiere de un entorno de desarrollo, ya que la forma en que se distribuye la herramienta es el código fuente, este debe ser compilado para poder utilizarse, sin embargo no tendrá que compilar el código directamente debido a que entre los archivos alojados en el repositorio de SAFBuilder en github se encuentra un archivo ejecutable que se encarga de realizarlo.

Sin embargo debe asegurarse de contar con lo siguiente.

Acceso a la terminal

En su sistema operativo debe abrir la terminal para ejecutar comandos. Cada sistema operativo cuenta con su terminal y no necesita ser instalado, solo debe encontrar el programa correspondiente y ejecutarlo.

Java Development Kit

 Es necesario para compilar y ejecutar el código descargado. Puede comprobar que tenga este componente instalado escribiendo en su terminal el comando javac -v. Si tiene problemas puede instalarlo con ayuda del siguiente tutorial: Cómo instalar Java con Apt en Ubuntu 20.04 | DigitalOcean.

Git

 Es un sistema de control de versiones, será útil para descargar el código fuente desde el repositorio oficial de SAFBuilder. La instalación y configuración básica para git la puede encontrar en: Instalar GIT en distintos sistemas operativos: Windows, MacOS y Linux (hostinger.mx)

SAFBuilder es una aplicación de consola, de modo que no tendrá una ventana, botones o cajas de texto donde pueda escribir los datos, sino que esta tendrá que ser ejecutada en la consola o terminal de su sistema operativo y las opciones se establecerán escribiéndolas al momento de ejecutar el archivo correspondiente. Esta herramienta es utilizada por el archivo ejecutable que se incluye en el repositorio, se encarga de descargar las dependencias necesarias para el funcionamiento del código. Puede instalar este componente de la siguiendo las indicaciones de esta guía: Cómo INSTALAR el constructor MAVEN para proyectos JAVA – [ARTECO] (arteco-consulting.com)

Pasos para instalar el empaquetador

1.-Abra su interfaz de línea de comandos o consola.

2.-Escriba el siguiente comando para copiar los archivos del código fuente del empaquetador a la carpeta en que se abrió la consola y presione la tecla Entrar para que se ejecute el comando.

3.- Escribra y ejecute lo siguiente para moverse de directorio a la carpeta SAFBuilder

cd SAFBuilder

4.- Ejecute el archivo safbuilder

Para crear la estructura de carpetas, se ejecuta el archivo safbuilder, en el caso de linux será el que tiene la extensión .sh y con el parámetro -c se indicará la carpeta donde se encuentra el archivo de entrada, en formato csv. 

En la misma carpeta donde se encuentra el archivo csv se deben colocar los archivos necesarios para el ítem, los cuales también deben ser referenciados en la columna filename del archivo csv. 

sudo ./safbuilder.sh -c ~/Descargas/mamiferos/mamiferos.csv -o mamiferos-output

sudo ./safbuilder.sh -c <archivo.csv> -o <nombreCarpeta>

Carpeta donde se encuentra el archivo csv

La ejecución de safbuilder nos mostrará información del proceso, como la ruta del archivo csv que se está leyendo y la carpeta donde se genera la estructura SAF. 

Mensajes durante la ejecución

En la carpeta donde se encuentra el archivo csv podrá notar que se generó una carpeta y que existe una subcarpeta por cada línea del archivo csv, se debe notar que el archivo csv que se mostró anteriormente tenía dos líneas con solo comas y ningún valor, como resultado se generaron las carpetas con un archivo xml que únicamente tiene la etiqueta dublincore sin otros elementos y con el archivo contents vacío, por lo que se recomienda revisar bien el archivo csv para que no haya filas vacías.

Carpetas generadas por SAFBuilder

En ítem 3 se puede notar que se repitió el elemento subject debido a que se agregó un valor a esta columna repetida, mientras que en los otros ítems no se creó la nueva etiqueta, ya que tenían ese valor vacío

Ejemplo de archivo dublincore.xml generado por SAFBuilder

Tomando de ejemplo el ítem 1 que corresponde a la primera línea (después del encabezado) podemos notar que se genera el archivo contents con el nombre de cada archivo en una línea.

Archivo contents generado

En esta segunda parte de la explicación del Sistema de Archivo Simple de DSpace se mostró cómo crear la estructura a partir de una base de un archivo csv. En la siguiente parte se muestra cómo importar estos ítems al sistema para que se muestren en la interfaz web del repositorio.

 

El uso del empaquetador se explica en la documentación de dspace en el siguiente enlace https://wiki.lyrasis.org/display/DSPACE/Simple+Archive+Format+Packager

 

Y la documentación y código fuente del empaquetador SAFBuilder está alojada en GitHub en la dirección https://github.com/DSpace-Labs/SAFBuilder

 

Elaborado por:

José Manuel Carrizosa Bustamante

Colaborador:

Osniel Cebrero Arcos

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *