Unidad 1
Introducción a los motores de búsqueda
En esta unidad didáctica veremos tanto la estructura y funciones de un motor de búsqueda, como las características básicas de los buscadores y los directorios.
Los motores de búsqueda son los más importantes sistemas de información documental de nuestro tiempo. Hoy nadie imagina la posibilidad de explotar la riqueza de la Web sin el auxilio de los motores de búsqueda cuyas funciones no han dejado de aumentar y de experimentar cambios desde su aparición en los años 90, formando ya parte de Internet de manera definitiva, aunque últimamente las redes sociales reducen su protagonismo.
Una forma de entender las funciones de un motor de búsqueda consiste en concebirlo como una clase de sistema de información documental (motor de búsqueda) que acepta dos clases de entradas: documentos (las páginas webs principalmente) y necesidades de información (preguntas de los internautas). La salida del sistema (personas informadas) es una lista de sitios web que contienen información capaz de satisfacer las necesidades de información del usuario, quien examina la relevancia de los resultados y si no le satisfacen, reitera la pregunta usando otros términos o introduciendo algún otro tipo de cambios.

Estructura y funciones de un Motor de Búsqueda
Un motor de búsqueda (MDB) es un conjunto de programas que trabajan en cooperación. Esos programas se pueden distribuir en dos grupos principales:
-
Sistemas de exploración o rastreador (spyder o crawleer). Tiene la misión de descubrir y descargar páginas web y otros documentos de Internet.
-
Sistema de recuperación de información (information retrieval system). Tiene dos componentes:
-
Sistema de indización: análisis de documentos descargados en la web y de la creación de índices que permiten consultas al MDB. Presenta dos clases: Índices directos: utilizan elementos de gestión y control internos: lista de documentos (o de registros), de dos formas, en orden cronológico ó numérico; Índices invertidos: lista ordenada de todas y cada una de las palabras que aparecen en los distintos documentos asociadas a los documentos concretos en los que aparecen (término único, frecuencia y ubicación).
-
Sistema de consulta: interfaz visible del MDB con la que interactúan los usuarios. Se utiliza para responder a las consultas. Tiene como funciones: formulario de consulta que sirve para enviar la pregunta a la otra parte del sistema, compara términos de pregunta con índice invertido y filtra términos de pregunta; el MDB presenta los resultados a través de de la página de resultados del MDB (serach engine results page, SERP); esos resultados deben presentarse en un orden significativo (cálculo de relevancia).
-
Igualmente la página de resultados debe presentar los documentos ordenados según su grado de relevancia (ranking), siendo suficiente consultar los 10 ó 20 primeros documentos, ya que se supone que son los más relevantes. Existen dos criterios para determinar la relevancia de una página web: criterios internos o intrínsecos, se refieren a aspectos estadísticos o de frecuencia de ocurrencia de la palabra clave de la pregunta; criterios externos o de popularidad que se refieren al resultado que pueda arrojar el análisis de los enlaces de entrada de la página considerada.
La respuesta del motor de búsqueda con la lista de documentos organizados en un ranking se representa en la página de resultados (PdR), ofreciendo una lista de páginas o documentos. Google, por ejemplo, nos muestra una PdR con diversas informaciones y opciones, que cambia con frecuencia para llamar la atención del usuario. En todo caso hay que destacar las múltiples funcionalidades que puede implementar un buen MDB en su PdR, y de las que con frecuencia no somos conscientes.
Motores de búsqueda y directorios eran las dos formas más importantes de buscar y encontrar información en la web. Actualmente, los directorios se consideran casi irrelevantes desde el punto de su uso por el gran público. Debido a una serie de factores, tales como la concentración de los usuarios en los motores a expensas de los directorios y la enorme cuota de mercado de la que gozan los principales motores, tras unos años con una gran diversidad de sistemas disponibles, en la actualidad, existen apenas tres grandes MDB y dos directorios generalistas:
| Motores | Directorios |
| Yahoo | |
| Yahoo-Search | Dmoz |
| Bing |
-
Los Directorios son sistemas de clasificación de sitios web, creados y mantenidos mediante el esfuerzo intelectual de equipos de personas que realizan las labores de organización de ese directorio, es decir examinan los sitios web y, a la vista de su contenido, deciden a qué categorías pueden ser asignados.
-
Los MDB son sistemas de creación de índices que permiten el acceso a la información presente en la web mediante el análisis automático de los documentos. Localizan la información (páginas web y documentos disponibles en servidores) y cuando los usuarios consultan un MDB, no está consultando directamente la Internet, sino el índice que ha construido el MDB mediante un conjunto de palabras o frases (indización).
Existen dos formas básicas de buscar y de obtener información en la Web: Navegación e Interrogación. Cada una de ellas se corresponde con dos grandes categorías de servicios de información en la Web: Directorios y Motores de búsqueda, lo que nos permite establecer un cuadro funcional que relacione modos de acceder a la información con tipos de servicios:
| Modo de acceso a la información por: | Se utiliza en: |
| Navegación | Directorios. Ejemplo: Yahoo |
| Interrogación | Motores de búsqueda. Ejemplo: Google |
La Navegación es aquella actividad de búsqueda que consiste en la realización de una serie de desplazamientos sucesivos a través de una determinada estructura de información, hasta que se encuentra lo que se busca, pero no proporciona los mismos resultados que la Interrogación porque no pueden afrontar las mismas clases de necesidades de información. La recuperación de la información por Interrogación consiste en entrar palabras o frases en un formulario. La respuesta consistirá en páginas, no en sitios, es decir, la respuesta puede consistir en una página web situada en un bajo nivel de profundidad del sitio. En cambio, en un directorio encontramos únicamente el acceso a la página principal del sitio.
![]()