25 abr. 2011

¿Cómo funcionan los motores de búsqueda?

Considerando que los motores de búsqueda están basados en robots que operan y actúan como tales y que desconocen quien es que está interactuando con ellos, otros robots o seres humanos, hay que conocer su funcionamiento y las tecnologías que los componen.
A grandes rasgos, mencionaré 4 pilares fundamentales en los que se basan.
  1. Un robot o bot, también llamado spider (o araña en español) o crawler (rastreador). El robot es una aplicación cliente utilizada dentro de un protocolo de red que realiza peticiones a servidores Web, conocido como User-agent (Agente-Usuario) es específico y propio de cada buscador. Su misión es rastrear con regularidad la red y recopilar información sobre los sitios Web y páginas que visita. Algunos robots conocidos son: GoogleBot (Google), Slurp (Yahoo!) y MsnBot (Bing).
  2. Un índice o index, es un catálogo sustentado en bases de datos muy grandes donde se guarda parte de la información que el robot recoge durante el rastreo.
  3. Una interfaz de búsqueda, que es el mismo buscador, es accesible en la Internet a través de una URL y es donde el usuario introduce su consulta en forma de palabra(s) clave(s).
  4. Un algoritmo de posicionamiento o relevancia, a través del cual el buscador ordena los resultados por orden de importancia. Este algoritmo es secreto.
Si quisieramos saber como el motor de búsqueda ve una página Web, podríamos utilizar un simulador de araña que imita la labor de rastreo como BotSimulator o Spider Simulator Tool.

 =)