Unidad 2

SPIDERS DE BUSCADORES: CARACTERÍSTICAS Y FUNCIONAMIENTO

En el contexto de la Web, un spider o un crawler es un programa que explora la Web d forma sistemática, con dos objetivos: interactuar con los servidores de los sitios Web para descargar páginas Web u otros documentos, y obtener nuevas direcciones (URL) para añadir a su lista de enlaces, en representación de los motores de búsqueda.

Los spiders más famosos son los de los buscadores de Yahoo, Bing o Google.

Cuando un usuario hace una búsqueda, los motores de búsquedas consultan un índice local que facilita el acceso a las características de las páginas y a otros documentos que antes descargó para ese motor, el spider.

Las tareas propias de un motor son:

Acceder a sitios Web, localizar y descargar documentos.
Extraer el contenido textual (y multimedia) de los documentos descargados.
Analizar e indizar su contenido para construir los índices del motor.
Analizar los enlaces de cada página y establecer alguna medida de popularidad (PapeRank, WebRank…)

En concreto, el spider se encarga de la primera de las tareas -acceder a sitios Web, localizar y descargar documentos- y lo hace tanto gestionando listas de enlaces como interactuando con los sitios. Para esto último, cada spider necesita una denominación específica (su nombre) para identificarse delante del sitio y que su actividad se registre en los archivos de actividad (logs) del sitio.

A los spiders también se les llama “agentes de usuario” porque forman parte de los programas denominados agentes o robots. Tienen cierta autonomía que les permite interactuar con otros agentes o sistemas sin necesidad de suspender su actividad.

Vamos a analizar las dos tareas típicas de un spider mencionadas anteriormente:

Gestionar listas de enlaces (URLs): en la Web, cada documento está asociado a un enlace. La página principal del sitio es una URL que contendrá a su vez enlaces a páginas de otros sitios Web. Por lo tanto, el primer componente del spider es necesariamente un sistema que le permita gestionar enlaces. Actualmente existen dos formas por las cuales un gestor de URLs de un spider obtiene sus enlaces:

Enlaces a páginas Web analizadas, bien del mismo sitio o de uno nuevo.
Enlaces proporcionados (submitted URLs). Los gestores o responsables de sitios Web pueden rellenar los formularios de los principales motores de búsqueda para dar de alta, al menos, la URL de la página principal del sitio. Esas altas pueden ser gratuitas o mediante pago.

Interactuar con los sitios: antes los spiders de los motores solían causar graves problemas (bajo rendimiento, colapso…) a los servidores de los sitios Web. Por ello se desarrolló un “protocolo de exclusión de robots”, que permitía al administrador de un sitio excluir el análisis de los spiders (robots) de ciertos directorios. Las instrucciones de ese protocolo se sitúan en un archivo de texto (de nombre robots.txt) que a su vez se coloca en el directorio principal (directorio raíz) del sitio. La versión más simple de ese archivo es la siguiente: User-agent:*Disallow. La versión del fichero robots.txt indica que cualquier spider puede indizar la totalidad del servidor. Esta es la opción más habitual pues lo normal es que las empresas estén interesadas en que las visiten e indicen su información cuantos más spiders mejor, porque eso significa que aparecerán en más índices de búsqueda. Cuando un administrador de un sitio quiere evitar que un robot índice su contenido, el fichero robots.text podría ser: User-agent:*Disallow:/debates/.

Los elementos meta de HMTL permiten complementar (o sustituir) el fichero robots.text añadiendo metadatos a una página utilizando el elemento indicado con los atributos name (robots) y content (noindex, nofollow).

El programador de un spider también debe desarrollar algoritmos que aseguren:

Que el spider visita con más frecuencia los sitios que se actualizan asimismo con más frecuencia.
Estrategias de análisis que le permitan al spider indizar en amplitud y en profundidad un sitio sin quedar atrapado mucho tiempo en él.

Algunos motores como Google han creado herramientas específicas para el uso de los administradores de sitios que sirven, por un lado, para que el spider indize mejor el sitio; y por otro, para que el administrador pueda saber en todo momento cómo ha sido analizado su sitio por el spider.

Existe la intención de hacer un estándar del sistema denominado Sitemaps, válido para todos los motores.