Unidad 5
Digitalización de documentos
Esta unidad trata de describir los parámetros que hay que considerar de una imagen digital, las compresiones y los formatos de archivo más utilizados y los periféricos de captura que permiten la digitalización de imágenes en los Sistemas de Gestión Electrónica de Documentos (SGED).
Un ordenador solo maneja formatos digitales de información, la cual puede estar codificada originalmente (códigos ASCII), o ser de tipo analógica (documento original). Esta información debe convertirse en una representación digital que permita ser procesada por un SGED.
Las imágenes digitales son fotos electrónicas tomadas de una escena o escaneadas de documentos como manuscritos, textos impresos, ilustraciones, fotografías, etc. Se confeccionan por mapas en forma de cuadrícula de puntos elementales (píxeles). A cada pixel se le asigna un valor tonal (negro, blanco, gris, color) el cual está representado por un código binario (ceros y unos). Estos dígitos binarios ("bits") para cada pixel, son almacenados en una secuencia y con frecuencia reducidos a una representación matemática (compresión). Luego el ordenador interpreta esta secuencia de bits para reproducir una versión analógica para su visualización o impresión.
A continuación se describen los parámetros de la imagen digital:
-
Resolución, es la frecuencia espacial a la cual se realiza la muestra de una imagen digital. Su medida se determina por el número de píxeles leídos en una distancia lineal de una pulgada (2,54 cm) en el documento digitalizado. Las unidades mas utilizadas son los puntos / píxeles por pulgada (ppp). Las resoluciones de digitalización de documentos están normalmente en el rango de 50 a 600 ppp.
-
Dimensiones de la imagen, son las medidas horizontales y verticales de la misma, expresadas en píxeles. Se determinan multiplicando tanto el ancho como la altura de la imagen (medido en pulgadas) por la resolución en ppp.
-
Profundidad de bits, se determina por la cantidad de bits utilizados para definir cada pixel, por lo que la profundidad se mide en bits/pixel. A mayor profundidad, mayor será la cantidad de tonos que puedan ser representados. Las imágenes digitales se pueden digitalizar:
-
En blanco y negro (bitonal): 1 bit, puede representar 2 tonos
-
A escala de grises: entre 2 a 8 bits, puede representar entre 4 a 256 tonos
-
A color: entre 8 a 24 bits, puede representar entre 256 a 16,7 millones de tonos.
-
En una imagen de 24 bits, los bits se dividen en tres grupos (RGB): 8 para el rojo (Red), 8 para el verde (Green), y 8 para el azul (Blue). Para impresión en color de alta calidad, 32 bits de profundidad, se utiliza la reproducción cuatricromática (CMYK) de 8 bits para cada color: cian (Cian), magenta (Magenta), amarillo (Yellow) y negro (blacK).
-
-
Rango dinámico, es el rango de diferencia tonal entre la parte más clara y la más oscura de una imagen, a más alto más matices se representan. Describe la capacidad de un sistema digital de reproducir información tonal.
-
Tamaño de archivo, se calcula multiplicando el área de superficie en pulgadas (ancho x alto) del documento a ser digitalizado, por la profundidad en bits/pixel y por el cuadrado de la resolución (ppp2). El resultado se puede expresar en Bytes, KB, MB, GB o TB.
-
Compresión, se utiliza para reducir el tamaño del archivo de imagen para su almacenamiento, procesamiento y transmisión, abreviando la cadena de código binario mediante complejos algoritmos matemáticos. Existen técnicas de compresión estándar y otras patentadas, además los sistemas de compresión también pueden caracterizarse como:
-
Sin pérdida (lossless): abrevian el código binario sin desechar información y al descomprimir la imagen, ésta es idéntica al original. Mayor frecuencia en el escaneado bitonal de material de texto. Ejemplos: CCITT G-4 (ITU-T .6), JBIG, LZW (GIF), LZW (TIFF, PDF, PS).
-
Con pérdida (lossy/visually lossless): compensan o desechan la información menos importante según la percepción visual. Mayor frecuencia en imágenes tonales, sobretodo en las de tono continuo. Ejemplos: JPEG, ImagePac (PhotoCD).
-
Formatos de archivo, consisten tanto en la configuración de bits que comprende la imagen como en la información del encabezamiento acerca de cómo leer e interpretar el archivo. Los formatos varían según su resolución, profundidad de bits, capacidades de color, y soporte para compresión y metadatos. Los principales formatos gráficos de imagen son: Bitmap (.bmp), TIFF (.tif, .tiff), GIF (.gif), JPEG (.jpeg, .jpg), JFIF (.jfif, .jif), PHOTO CD (.pdc), PNG (.png) y PDF (.pdf).
Organizaciones privadas y públicas, en multitud de sectores, han incrementado la utilización del papel en el transcurso de sus actividades. Esto provoca problemas como: la dificultad en el manejo de cantidades enormes de este soporte, la ocupación de grandes volúmenes de espacio para almacenar los fondos, el incremento de las labores de explotación del mismo como son la indexación, búsqueda y flujos del papel, etc.
Actualmente, gracias a la evolución de ciertas tecnologías en los campos de la información y las comunicaciones, se han desarrollado Sistemas de Gestión Electrónica de Documentos (SGED) que implantan soluciones eficientes y de costes razonables. Estos avances se refieren a las distintas tecnologías de almacenamiento masivo, de digitalización electrónica, de comunicaciones de alta velocidad, de visualización de imagen, de compresión de imagen...
En cuanto al proceso de digitalización, éste se ocupa de transformar algo analógico en algo digital, es decir, se trata de tomar una imagen (papel o film) y convertirla en un formato tratable informáticamente. Este proceso se lleva a cabo mediante los periféricos de digitalización o escáneres. Una parte importante de los escáneres son los sensores de imagen, los más comunes son el CCD (el más utilizado en documentación), el PMT y el CMOS.
Encontramos varios tipos de escáneres: plano, de rodillo, mixto (plano/rodillo), aéreo, de film y diapositivas, de tambor, de gran formato y radiológico. El tipo de digitalizador más utilizado en SGED es el mixto, este escáner de sobremesa polivalente combina las facilidades de un escáner plano para originales encuadernados, con la rapidez de los escáneres de rodillo para la digitalización masiva de originales (hojas sueltas).
Escáner mixto (plano/rodillo)
A nivel de hardware se puede conectar el escáner con el ordenador a través de diversas conexiones normalizadas como el conector SCSI (recomendado para SGED), el puerto paralelo o el puerto USB.
Los parámetros que determinan las prestaciones y calidad de un escáner son la resolución óptica, la resolución interpolada, la resolución de escaneado, el área de exploración, la velocidad de exploración y los formatos de archivo.
Algunos escáneres profesionales disponen, directamente o a través de hardware/software específico, de funcionalidades adicionales que mejoran el rendimiento de la digitalización masiva, como la separación automática de texto/foto, el umbral dinámico, el extracto de contorno, la imagen inversa, la imagen espejo, el énfasis de bordes, el relleno de huecos, la supresión de ruido y la igualación de zonas irregulares.
Para iniciar un programa de digitalización de documentos, las instituciones deben establecer unos objetivos que deben traducirse en unos resultados concretos. El alcanzar o no estos objetivos y resultados dependerá de los recursos y procesos de los que se dispongan:
-
Recursos: personal, finanzas, espacio, tiempo y capacidades técnicas.
-
Procesos: digitalización, procesamiento de imágenes, indexación, control de calidad, preservación y gestión.
A la hora de realizar la digitalización, la institución puede elegir entre realizar el proceso internamente (el propio centro), externamente (subcontratar a una empresa externa especializada) o de forma mixta, considerando las diversas ventajas e inconvenientes de cada opción. Los factores que condicionan la elección pueden ser el fondo documental disponible, el tipo de institución y los requisitos de tiempo previstos para poner en marcha un SGED.