El archivo robots.txt es un archivo de texto en el directorio raíz de un sitio web. Se utiliza para controlar los bots de los motores de búsqueda y ofrecer a los webmasters la posibilidad de decidir qué archivos o directorios son necesarios rastrear o no (del inglés, crawl), lo que significa básicamente cual se visitan o no.
El mismo se puede crear fácilmente con un simple editor de texto; a continuación, le mostraremos qué líneas son analizadas por los robots de los motores de búsqueda (o crawlers, en inglés).
Cada entrada en el archivo robots.txt consiste de dos partes:
La primera se llama User Agent. En esta sección es donde se menciona o se hace referencia a un user agent, como por ejemplo Google Bot. Comience agregando la línea User-agent: *, el cual hace posible que todo lo que se escriba a continuación sea tomado en cuenta por todos los bots de motores de búsqueda. En la segunda parte ingresaremos las líneas allowy disallow, que permiten decidir que archivos o directorios se van a permitir rastrear y cuales no. Escriba la línea Disallow: /para que dichos bots antes mencionados no puedan asistir al directorio o archivo adjunto.
Un archivo robots.txt simple contiene dos líneas y permite a todos los bots ser rastreados y leer todos los archivos y páginas de un sitio web.
# Habilitar página completa:
User-agent: *
Disallow:
En el siguiente ejemplo, la página web está excluida de la indexación por completo
# Todo el sitio para todos los robots
User-agent: *
Disallow: /
El acceso a determinados archivos o directorios se puede negar de la siguiente manera:
User-agent: *
Disallow: /news/
Disallow: /daily.html
Para desactivar el acceso a su sitio web para bots de motores de búsqueda específicos, debe llamar a los bots adecuados en la parte UserAgentde cada entrada:
User-agent: Googlebot
Disallow: /
Con Allowpuede especificar qué bots están permitidos acceder al archivo:
User-agent: Googlebot
Disallow: /folder1/
Allow: /folder1/ejemplodedato.html
En el archivo robots.txt todos los directorios pueden bloquearse de la indexación que usted no necesita ingresar a un motor de búsqueda. Como por ejemplo, las carpetas innecesarias con imágenes.
Adicionalmente una opción que funciona bien en el archivo robots.txt es la referencia a sitemap.xml. Este archivo ofrece más contenido para el bot del motor de búsqueda disponible:
User-Agent: *
Disallow:
Sitemap: http://www.susitioweb.com/sitemap.xml
Lo mismo va para sitemaps de vídeo o imágenes:
User-Agent: *
Disallow:
Sitemap: http://www.susitioweb.com/sitemap.xml
Sitemap: http://www.susitioweb.com/video-sitemap.xml
Sitemap: http://www.susitioweb.com/imagenes-sitemap.xml
Aprende todo lo que necesitas saber para llevar tu marketing al siguiente nivel. Pon tu negocio en el camino del éxito.
Descargar PDF gratisX