Unidad 6

El archivo de la web

Desde mediados de los años 90 del siglo XX los países tecnológicamente desarrollados generalizan el uso de Internet, pasandose la información a formato digital.

La Unesco expone en sus directrices para la preservación del patrimonio digital los recursos que son fruto del conocimiento o la expresión de los seres humanos, ya sean de carácter cultural, educativo, científico o administrativo, o comprendan información técnica, jurídica, médica o de otro tipo, se generan cada vez más a menudo directamente en formato digital, o se convierten a ese formato a partir del material analógico ya existente.

Hay una inexistencia de textos legales que den cobertura legal a estos nuevos procesos documentales.

Las administraciones públicas y universidades diseñan estrategias para garantizar el acceso y la preservación de los contenidos publicados en línea por medio de su captura y procesamiento. Se crean los “archivos web” que son repositorios digitales para la preservación de la producción digital más obvia, las páginas web. Con ello garantizan el acceso permanente al patrimonio creado por una comunidad, para contribuir al progreso y al crecimiento individual y colectivo de sus miembros.

El número de repositorios que permiten acceder libremente a sus colecciones es limitado. Algunos repositorio digitales son: Kuturarw3, Pandora, Internet Archive, Netarkivet.dk y PADICAT.

Los dos modelos básicos de políticas de colección con una tendencia generalizada hacia un modelo híbrido son:

modelo integral o exhaustivo, mayoritario cuyo fin es la integración automática de la web a partir de determinados criterios infraestructurales.
modelo selectivo, dirigido a compilar la web en base a una política selectiva, recursos digitales para un espacio geográfico concreto.

Ambos tienden a modelos híbridos que complementan la captura periódica de un dominio geográfico completo, con acciones selectivas temáticas y ampliando su cobertura a acontecimientos de interés social o sucesos informativos que generan actividad intensa en las redes.

Los impulsores de estos proyectos son organismos nacionales de bibliotecas y archivos, universidades y entidades públicas y privadas. Los representantes de estos organismos se agrupan en International Internet Preservation Consortium (IIPC) para compilar, preservar y dar acceso a la información y al conocimiento de Internet para futuras generaciones de todo el mundo, promoviendo el intercambio global y las relaciones internacionales. Algunos de estos proyectos son: Memento, PADICAT, Ondarenet…

Ejemplos de archivos web:

1.- Internet Archive es una asociación sin ánimo de lucro cuyo objetivo es guardar copia de una amplia selección de todos los sitios web que existen, cuyo rastreo se hace mediante un crawler. Han creado programas informáticos como Heritrix y Wayback. Para su visualización se debe conocer la URL de los sitios web, ya que de momento no es posible la búsqueda por palabras clave.

Desde el 2009 la Biblioteca Nacional de España encarga capturas periódicas del dominio .es a Internet Archive.

2.- Pandora, su objetivo es guardar copia de documentos publicados en Internet realizados por australianos o sobre temas australianos. Su programa informático se llama PANDAS y su búsqueda se puede realizar vía directorio, a texto completo o URL.

3.- Netarkivet.dk se basa en un concepto híbrido y su programa informático es Heritrix. Su consulta está restringida a investigadores en las sedes físicas de las bibliotecas nacionales y su búsqueda se realiza mediante URL.

4.- PADICAT es un depósito digital, basado en un modelo híbrido, encargado de conservar y difundir el patrimonio bibliográfico catalán. Su programa informático es Heritrix al cual complementan con otros programas. Todo el software utilizado es de código abierto y gratuito. Se puede consultar a texto completo, por directorio temático y a través de URL.

La preservación digital en los repositorios digitales no está garantizada absolutamente, a pesar de que la mayoría de los ficheros informáticos corresponden a formatos estándar que pueden simplificar la tarea de preservación.

Respecto a los aspectos técnicos podemos destacar que la mayoría de sistemas de archivo web se basan en el ciclo documental clásico de bibliotecas, archivos y servicios de información: compilación, proceso y difusión. Los pilares para ello son:

Captura de recursos. Estos son las páginas web, que podemos definir como “las páginas ligadas jerárquicamente a una página principal, identificable por una URL y que forma una unidad documental reconocible e independiente de otras”. Heritrix es el programa informático dedicado a la captura.
Organización. Una vez capturados los recursos se debe permitir gestionar la colección y asegurar la recuperación preservando los contenidos digitales con las técnicas disponibles. Debe de tener una identificación permanente de los recursos, la aplicación de metadatos, el almacenamiento y la preservación. El programa Nutch-Wax se utiliza para el procesamiento de los recursos digitales.
Acceso permanente a la colección. Se acceden a los recursos, una vez capturados e indexados, mediante Wera (texto completo) o Wayback (URL).

Otros programas informáticos que se dedican a la captura y proceso de los recursos digitales publicados en Internet pueden ser: PANDAS, Web Curator Tool, HTTrack y Hanzou.

Hay servicios que permiten crear archivos de sitios web, para ello ofrecen un software rastreador (crawler) que recorre los sitios que se le indican y almacena una copia de todas sus páginas. Los más conocidos son WebCite y Archive-It. El servicio incluye un buscador por palabras clave y la acotación por institución.

En cuanto al aspecto legal, en general hay una obsoleta regulación del depósito legal. En España está vigente una ley de depósito legal renovada en el año 2011 y actualmente está en proceso para preveer la obligatoriedad del depósito legal digital. Un referente legal que nos afecta es la Ley de Propiedad Intelectual.