Unidad 3 

Algoritmos de posicionamiento en buscadores: análisis de enlaces y PageRank

La página de resultados de los motores de búsqueda ordena los documentos encontrados por su relevancia. Hasta finales de los 90 la relevancia de una página o un documento se determinaba inadecuadamente aplicando técnicas clásicas de recuperación de información, que generaban gran cantidad de falsos positivos. Para evitar esto, Google aplicó una técnica denominada PageRank, basada en el “análisis de enlaces”.

Antes de analizar esa técnica, conviene que nos detengamos brevemente en las características de la Web:

 

  • Relevancia: según la teoría clásica de Recuperación de la Información (RI), para el usuario no resulta operativo que un sistema documental entregue listas de resultados ordenadas de forma aleatoria. Dado que en muchas ocasiones el número de resultados de una búsqueda puede ascender a varias centenas, millares o millones, la ordenación por relevancia se hace imprescindible, para que al usuario le baste con revisar simplemente los primeros documentos.

 

Determinar cuánto de relevante es un documento es problemático porque eso dependerá de las características del documento y de las características del usuario.

 

En Documentación entendemos que relevancia es la propiedad que tiene un documento de satisfacer una necesidad de información.

 

  • Heterogeneidad. La Web es en esencia heterogénea en documentos, en aspectos, en puntos de vista y en autores con intereses, culturas, idiomas… diferentes.

     

  • Recuperación de información “con adversario”. En la Web, los autores de páginas y los administradores de sitios están interesados en conseguir que sus sitios queden bien posicionados en las páginas de los resultados de los motores de búsqueda, y esa misma ambición a veces les conduce a manipular esos resultados. Para evitar esto, una característica de la Web es la exigencia de que el motor de búsqueda sea inmune a los intentos de manipulación de los propios autores o de los administradores.

 

Para conseguir que la Web gane en eficiencia, cumpliendo con los tres requisitos anteriores, Google desarrolló el análisis de enlaces: en el cálculo de la relevancia se tendrían en cuenta las propiedades de los documentos junto con las propiedades de los enlaces de entrada. Aplicando ese “análisis de enlaces” los resultados se hicieron mucho más eficientes y con ello, Google se hizo con el dominio casi absoluto del mercado de las búsquedas.

 

El análisis de enlaces parte de una premisa: una página es más importante cuanto más enlaces de entrada recibe. Para gestionar esa idea se han desarrollado dos conceptos:

 

  • HITS, es un algoritmo desarrollado por Keinberg basado en la consideración de dos grandes clases de sitios: hubs o eje (página en la que salen numerosos enlaces hacia otras páginas relacionadas temáticamente) y authorities (página que recibe muchos enlaces de entrada). Las mejores páginas serán aquellas que o bien sean huts, si el usuario está buscando respuestas directas; o bien, authorities, si lo que busca son referencias.

     

El Hits no se ha llegado nunca a implementar en ningún motor de búsqueda por sus dificultades técnicas (mucho tiempo de cómputo).

 

  • PAGERANK (PR), es el algoritmo implantado por Google en su propio motor y su influencia ha sido grande en los algoritmos desarrollados para otros motores de búsqueda importantes (Hits de Google, WebBank de Yahoo).

     

Además de ser un motor de enlaces, el PageBank es también el resultado del mismo, es decir una medida estadística que informa de la visibilidad o de la popularidad de una página calculadas a partir del número de enlaces de entrada de un sitio web y de la calidad de los mismos. Por tanto, se trata de un rasgo recursivo: un sitio web enlazado por un sitio web muy popular tendrá un mayor PR que un sitio web enlazado a otro menos popular. Es decir, un sitio con un alto PR transmite menos PR a las páginas que enlaza que otro sitio con mayor PR relativo pero que tiene menos enlaces de salida.

 

Las páginas más importantes tienen mayor PR y son las que aparecen en la parte superior de los resultados de búsqueda. Además de eso, Google para priorizar determinadas páginas tiene en cuenta la relación temática de los enlaces de entrada y la antigüedad y reputación de las páginas que enlazan.

 

En Google existen dos índices PR: PR Auténtico (PRA) que es de uso interno y secreto; y otro PR Externo (PRE), que encontramos en la barra de herramientas del propio Google y que con una escala de 0 a 10 indica el índice PR que tiene el sitio.

 

El PR de Google ha sufrido algunas modificaciones en su algoritmo llamadas TRUSTRANK y que vienen a confirmar la idea del PR: una página quedará bien posicionada en función de la calidad (y del volumen) y autoridad de su contenido.