JÚLIUS JANCSÓ

¿Qué es un Disallow y para qué sirve?

> >
Disallow
>

Disallow en inglés significa rechazar, es decir, darle una instrucción a los bots de búsqueda para que no accedan a una página concreta. Esta es una instrucción que debe introducirse en el fichero Robots.txt. De esta forma se evita que los bots agreguen contenido innecesario a los resultados de una búsqueda.

Este término fue incluido en el Protocolo Estándar de Exclusión de Robots. Aunque se creó en 1981, no fue hasta julio de 2019 cuando Google inició el proceso para que fuera un estándar en toda la web.

De esta manera, se establece que los robots de búsqueda tienen que rastrear primero el fichero Robots.txt antes de hacerlo con el sitio web.

Por eso, cada página web debe tener el fichero Robots.txt en su directorio raíz, porque es allí donde se encontrará la instrucción Disallow.

Todo esto puede parecer contradictorio. ¿Por qué alguien querría que no se indexará un resultado de su web?

Puede haber varios motivos, uno de ellos es no mostrar archivos o páginas que no sean de utilidad para una búsqueda. Así los motores de búsqueda no pierden tiempo rastreando este contenido.

¿Para qué sirve la instrucción Disallow?

Un Disallow sirve para darle la instrucción a las arañas de los motores de búsqueda qué contenido no deben rastrear.

Otro uso común que tiene el Disallow es el de esconder u ocultar información de una página web. Pero, esto no garantiza que el contenido está fuera del alcance de todos, porque si una persona tiene la URL, podrá acceder.

Además, si el buscador considera que la información es relevante la indexará.

Y es que, hay que aclarar que Disallow es una directiva, no una obligación. Así que, si el motor de búsqueda considera que hay información valiosa accederá al contenido sin problemas.

Por lo general, esto sucede cuando la página o URL que desea ocultar tiene otras webs que la enlazan.

En definitiva, la instrucción Disallow puede servir para una óptima indexación web, sin ser de carácter obligatorio.

¿Cómo usar Disallow y ejemplos?

Usar esta instrucción es muy sencillo, por ejemplo si se quiere agregar un Disallow a una página en concreto se debe colocar en el archivo Robots.txt lo siguiente:

Disallow: /url-de-la-pagina/

Otra directiva muy común es cuando apenas se está desarrollando una web. En este caso se quiere evitar que los bots accedan al sitio y así no pueda ser indexado.

Para ello, se utiliza la siguiente instrucción:

User-agent: *

Disallow: /

En este caso, el término User-agent:*  le da la instrucción a todos los bots de la web. Disallow: / significa que todos los archivos y páginas del dominio están bloqueados.

Estas son las instrucciones Disallow más usadas, aunque, se pueden usar con carpetas y con bots específicos.

Por ejemplo, para el bot de Google quedaría así:

User-agent: Googlebot

Disallow: /

De esta manera, se pueden elegir qué bots rastrean o no determinados contenidos. Siempre teniendo en cuenta que no es una directriz obligatoria y escogiendo muy bien a qué páginas se les desea aplicar un Disallow.