La necesidad de obtener lo que se busca de la manera más rápida y precisa se ha convertido en uno de los principales objetivos de quienes administran la información y la ponen a disposición de sus usuarios, trabajo especial de nuestros amigos los bibliotecarios, y en ese contexto, la mayoría de las instituciones, en especial las académicas, tienen varias fuentes de información: bases bibliográficas, repositorios, bases digitales (aquellas que contienen los artículos de investigación de actualidad y relieve bajo tiempos de embargo), archivos y documentos históricos, etc. (si se hiciera un recuento, podríamos decir que en promedio, una institución académica de educación superior en latinoamérica puede tener a disposición del público alrededor de 7 buscadores en distintas fuentes de información con cientos o miles de registros en cada uno). Sin embargo las herramientas que permiten la eficiencia y rapidez de poder encontrar lo que se busca en el menor tiempo posible tiene su costo (tanto en herramientas libres como pagadas) y más si se puede encontrar lo que se busca en un solo click.
El propósito del presente artículo es brindar una óptica general de las ventajas y desventajas de las herramientas disponibles conocidas como metabuscadores, las cuales reúnen los registros de todas las fuentes de información de la institución en un solo portal de búsqueda.
Las herramientas y soluciones libres tienen desventajas al momento de ofrecer la información y esta se puede notar en dos frentes:
- Búsqueda de información en tiempo real: este método permite encontrar material que ha sido modificado o adicionado a las fuentes de información de manera inmediata mediante la búsqueda.
- Integración de fuentes de información heterogeneas para la búsqueda: esto implica recolectar los registros o información de cualquier tipo de fuente: bibliográfica, repositorios, bases digitales, etc. en una sola base de datos para ponerla a disposición mediante búsqueda.
Por otro lado las soluciones comerciales en metabuscadores han aprovechado muy bien el hecho de que las herramientas libres promueven el acceso abierto a la información de manera que pueden recolectar los registros de sistemas mediante sus protocolos abiertos para integrarlos a sus soluciones de metabúsqueda, pero lo que realmente le da el valor agregado (por el cual son soluciones comerciales) es ofrecer la información de las bases digitales, con sus artículos de investigación, integrados en una sola solución de búsqueda; solución por la cual las instituciones pagan sumas de dinero bastante altas (en latinoamérica un paquete de 5 bases digitales pueden sobrepasar los cien mil dólares, a esto se le debe sumar el metabuscador comercial). Realmente el costo puede llegar a ser la única desventaja que presenten estas soluciones y que por cierto son de suscripción anual.
Profundizando en el análisis, nos vamos a concentrar en 3 tipos de fuentes de información que pueden tener las instituciones:
- Base de datos bibliográfica: Aleph, ABCD, PMB, Koha, etc.
- Repositorio digital: Dspace, Evergreen, E-prints, etc.
- Bases digitales o también conocidas como bibliotecas virtuales: EBSCO, Springer, Taylor and Francis, IEEE, etc.
De estos 3 tipos, la gran mayoría de bases de datos bibliográficas y repositorios digitales han visto la necesidad de implementar protocolos que permitan compartir los registros, tal como lo hace el protocolo OAI (Open Archives Initiative) para promover el acceso abierto. Algunas de las soluciones comerciales para bases bibliográficas tienen el acceso al protocolo bajo clave lo cual impide que un metabuscador extraiga la información. Existen otros protocolos como z39 que también promueven el intercambio de registros entre bases. Por otro lado, los protocolos de acceso a bases digitales pagadas son restringidos y accesados solo por los sistemas a los que ellos permitan bajo comprobación de usuario, clave e incluso de IPs de acceso, con esto último quiero decir que la base digital reconoce la IP que intenta extraer la información y la compara con sus registros de IPs permitidas lo cual se conoce como acceso por IP. Hasta hace poco, una solución libre (de la cual no expongo el nombre ya que cortó su mantenimiento y continuidad) promovía el compartir los listados completos de los registros de las bases digitales a las cuales las instituciones se encontraban suscritas mediante un formato estructurado que exponía el título, el autor, la URL de acceso, entre otros. Esto permitía tener un sin número de archivos en un estándar que su sistema podía leer, estos archivos provenían de varias instituciones colaboradoras con contratos a bases digitales, ya podemos imaginarnos la enorme ayuda que esto suponía: poder tener cada uno de los registros, artículos, publicaciones, investigaciones, etc. de estas bases digitales pagadas en un solo sistema que los ofreciera en un solo buscador; por supuesto, el hecho de tener esta información disponible no garantizaba el acceso directo a texto completo de los artículos o publicaciones ya que, como mencioné anteriormente, estas empresas realizan comprobaciones previas de quienes acceden a su información y verifican si han pagado la debida suscripción o comprado la publicación. Aún así, para un investigador o un docente, supone una gran ayuda tener toda esta información integrada ya que no tendrá que hacer múltiples búsquedas en cada base digital, si no, mediante una sola obtener toda la información que necesita y comprar el artículo o publicación que le interese. En esa misma línea podemos imaginarnos el enorme ahorro que esto implicaría a las instituciones a no tener que comprar paquetes completos de información a las bases digitales.
Hoy, la integración de estas fuentes sigue siendo difícil de encontrar con soluciones libres, pero aún así son posibles, y de manera no tan técnica se puede notar el proceso que se puede seguir para obtener todos los registros (en la suma de la posibilidad de las herramientas existentes en su institución) en un solo metabuscador. Usando los 3 tipos de fuentes de información expuestas como ejemplo se puede ver rápidamente un esquema de integración genérico:
- Un buen metabuscador puede ser VuFind: http://vufind-org.github.io/vufind/ Esta herramienta permite importar los registros en formatos estandarizados usando el protocolo OAI. Si su institución consta con un sistema de administración para la biblioteca y un repositorio, ambos con protocolo OAI, entonces VuFind puede cosechar estos registros. Este término: cosechar, ha tomado auge y hace referencia a que un software puede recolectar registros mediante un protocolo en diferentes fuentes (registros que ciertas veces deben cumplir un estándar de meta-datos, tema que ampliaré en otra entrada de este blog) para ponerlas a disposición en metabúsqueda.
- Una vez que los registros de la base bibliográfica y el repositorio se encuentran cosechados, hacen falta las bases digitales comerciales. La gran mayoría de estas bases ofrecen a sus suscriptores los listados de artículos y publicaciones en un archivo formateado, este puede ser una hoja de cálculo o archivo separado por comas. Con esta información dispuesta en esta modalidad podemos realizar un proceso de re-estructuración de esta información en formato XML que VuFind pueda importar a su base de datos. Es un proceso técnico que puede consultar en la página oficial del sistema.
- Ampliando nuestro ejemplo, existen instituciones que administran sus fondos históricos y documentales con sistemas como ICA-AtoM (https://www.ica-atom.org/) y por otro lado sus publicaciones seriadas e investigaciones con OJS (https://pkp.sfu.ca/ojs/); estas herramientas también hacen posible la cosecha de sus registros con OAI.
Así se puede notar un esquema bastante general de integración mediante OAI e importación de registros en estructuras XML mediante sistemas que entiendan estas vías de compartir información, VuFind es solo un ejemplo, cualquier institución o persona puede desarrollar un sistema que siga el mismo proceso para integrar la información.
Como conclusión puedo señalar que las herramientas comerciales solucionan el proceso repetitivo y manual de importar registros en un cosechador para ofrecerlos en metabúsqueda, sin embargo su costo puede llegar a ser alto, comúnmente en función de la cantidad de usuarios, además de que su suscripción generalmente es anual, sin embargo los usuarios de esta herramienta podrán encontrar la información actualizada y en tiempo real. Por otro lado las herramientas libres podrían tomar un tiempo considerable en acoplar las diversas fuentes de información y ponerlas a disposición del usuario, más que nada por ser un proceso repetitivo pero que es susceptible de ser automatizado; hay que tomar en cuenta que las búsquedas bajo cosecha no se realizan en tiempo real. Aún así, y una vez lograda la automatización de las cosechas de las diferentes fuentes de información con un desarrollo propio o con herramientas libres, se obtiene un software automatizado para la cosecha evitando el pago por suscripción anual de una herramienta comercial.
Cada institución debe analizar que herramienta le conviene para cosechar sus datos y ponerlos a disposición de una manera más eficiente, este artículo ha presentado pocas herramientas de una variedad mucho más grande en el mercado.
No hay comentarios:
Publicar un comentario