Un archivo robots.txt es un archivo de texto simple, que sirve para indicar a los robots (en especial a los robots de los buscadores) qué partes del sitio no debería indexar. Se considera que se puede indexar cualquier carpeta o archivo que no esté explícitamente prohibido por este archivo.
Los buscadores más importantes lo respetan (de otra forma su utilidad sería bastante escasa).
Hay varios motivos para usar un archivo robots.txt:
- Evitar el indexado de las imágenes
- Evitar que un robot consuma demasiado ancho de banda
- Dirigir a los buscadores a las páginas especialmente preparadas para ellos
¿Cómo crearlo?
El archivo robots.txt es un archivo de texto simple, que se ubica en la raíz del sitio. El formato del archivo es extremadamente simple, consta de 1 o más conjuntos, separados por una línea en blanco, de:
- Una línea
User-agent, indicando el nombre de un robot o "*"; (todos los robots).Si bien la especificación de robotstxt.org no impone que se respeten mayúsculas y minúsculas, para máxima compatibilidad es mejor respetarlas. Esto es: escribir "User-agent" con la U mayúscula, y escribir el nombre del robot tal cual se identifica.
Otro detalle a considerar es que no se aceptan expresiones regulares, solamente el nombre de un robot (y solo uno) o el asterisco "*" para que coincida con todos.
- Una o más líneas
Disallow(no permitir), cada una indicando una carpeta o archivo del sitio que no se quiere que el robot (indicado por la línea User-agent) indexe. En esta línea tampoco se admiten "comodines", debe darse la ruta completa. Cada línea Disallow debe contener solamente una ruta.
He aquí un ejemplo, en el que se niega a todos los robots el acceso a la carpeta /admin y al Googlebot el acceso a la carpeta /imagenes y al archivo /javascript/ultrasecreto.js
User-agent: *
Disallow: /admin/
User-agent: Googlebot
Disallow: /imagenes/
Disallow: /javascript/ultrasecreto.js
Los robots que respetan sus directivas lo buscan cada vez que se conectan a un servidor, así que si el archivo no existe se generarán muchos errores 404 causados por robots buscándolo.
¿Cómo saber el nombre que hay que usar para un robot?
La mayoría de los robots "serios" acompañan su cabecera User Agent con una URL en la que se puede encontrar información sobre ellos, que suele incluir los datos necesarios para "guiar" al robot usando el robots.txt.
Seguridad
Es importante destacar que aunque sirva para indicar a los robots por qué partes del sitio no deben entrar, el archivo robots.txt no debe ser usado como mecanismo de seguridad. Los robots reciben la indicación de no entrar, pero nada les impide hacerlo.
Además, todas las rutas que se indiquen quedan visibles para cualquiera que quiera verlas, nada impide a cualquier usuario ver el archivo, sobretodo considerando que siempre se encuentra en la misma ubicación (la raíz del sitio).
Si se necesita seguridad, se necesita un sistema basado en programación del lado del servidor, como siempre (ya sea un paquete PHP o autenticación HTTP)









