4 dic 2009

Factores On page: Robots.txt


Robots.txt es un archivo que se aloja en el directorio raíz del sitio Web cuya funcionalidad es la de darle instrucciones a los motores de búsqueda sobre el sitio. Estas "instrucciones" son aquellas páginas de nuestro sitio a la que no queremos que accedan los robots, como por ejemplo página de resultados de búsqueda, enlaces con parámetros poco significativos, foros, estadísticas o páginas de secciones privadas o de usuario.
 

La estructura es la siguiente:

user-agent: nombre_robot
disallow: pagina_que_deseamos_"bloquear"

Si queremos "bloquear" todas las páginas de un directorio se coloca:

disallow: /nombre_directorio

Para los archivos de un mismo tipo:

disallow: /*.gif$

Para páginas generadas dinámicamente:

disallow: /*?

El asterisco (*) es un comodín que simboliza una o más letras, o de forma más genérica, que incluye a todos (sea páginas, motores o tipos de archivo)

Si no se tiene acceso al directorio raíz, se puede utilizar la meta etiqueta: robots.Usada de la siguiente manera:
<Meta name="robots " content="INDEX|NOINDEX|FOLOW|NOFOLLOW|NOARCHIVE|NOSNIPPET|NOODP|NONE|ALL"/>


=)

0 comentarios :