Para qué sirve un archivo robots.txt y cómo editarlo

Para posicionar una página web, los buscadores envían a sus robots para indexar los nuevos contenidos. Los robots son el enlace entre los buscadores y las páginas web. Lejos de la imagen que podemos tener de un robot, estos robots son programas pequeños que detectan cuando se ha creado un nuevo contenido o cuando se ha editado uno existente. El archivo robots.txt permite indicar las instrucciones a estos robots.


¿Qué es un archivo robots.txt?

Más bien deberíamos preguntarnos "¿Qué es EL archivo robots.txt?", ya que se trata de un archivo único. Sirve para indicar a los buscadores lo que deben o no deben indexar. Por convenio, los robots de los diversos buscadores consultan el archivo robots.txt antes de indexar una web.


¿Dónde está el archivo robots.txt?

Este archivo se encuentra, al igual que el sitemap, en la raíz de tu página web. No tienes que hacer nada para crearlo, se genera automáticamente cuando creas tu web. Si quieres editarlo, debes ir desde tu manager a Marketing > Posicionamiento > Robots.txt.


¿Qué contiene el archivo robots.txt?

Por defecto, el archivo robots.txt informa sobre tres aspectos. Para ver el archivo y su información, accede a la página de inicio de tu web y escribe /robots.txt al final de la dirección URL de tu web y visualiza el resultado. Aparecerá la información del archivo robots.txt.

  • User-agent: esta línea indica si a los robots se les permite el acceso o se les prohíbe. El caracter "*" siginifica que la información afecta a todos los buscadores.
  • Allow: esta línea significa "autorización". El caracter "/" siginifica que se puede acceder a todas las URL de tu web. Estas dos primeras líneas indican que todos los buscadores pueden indexar todas las páginas que componen tu web.
  • Sitemap: es la dirección en la que se encuentra el sitemap de tu web. El sitemap es el archivo en el se agrupan todas las direcciones URL de las páginas de tu web. Se crea automáticamente en la raíz de tu web por defecto.

Robots 1


¿Es necesario editar el archivo robots.txt?

Si quieres que todo el contenido de tu web sea indexado por los buscadores no necesitas editar el archivo robots.txt. Si dejas el archivo tal cual está, indicarás a los buscadores que quieres que todo el contenido de tu web sea indexado sistemáticamente.

Por defecto, el contenido de este archivo se crea automáticamente. Sin embargo, en algunos casos puede ser interesante editar el archivo robots.txt, pero es importante que sepas que modificar el archivo afectará al posicionamiento.

No edites el archivo robots.txt si no tienes conocimientos en la materia. Ten en cuenta que un error en la escritura tendrá un efecto no deseado en el posicionamiento de tu página web.


¿Cómo editarlo?

Para editar el archivo robots.txt de tu web, accede al manager y dirígete a Marketing > Posicionamiento > Robots.txt. Desactiva la casilla Robots.txt automático.

Como decíamos, el archivo contiene 3 líneas, las 2 primeras indican que todos los buscadores están autorizados a indexar todo el contenido de tu web. Esta información se añade automáticamente, no tienes que añadirla manualmente.

Robots txt 2

 

Es posible que necesites indicar a un buscador en particular que no debe indexar uno o varios contenidos. Si por ejemplo no quieres que Google indexe el foro de tu web, debes editar el archivo de la siguiente manera:

Robots txt 3

Te recomendamos la lectura de este artículo para obtener más información sobre el uso del protocolo de exclusión de los robots.


Cómo excluir una o varias páginas de archivo robots.txt

Ya has visto como editar el arichivo robots.txt para excluir una carpeta completo del archivo (rl foro en nuestro ejemplo).

Puedes necesitar excluir de la indexación una URL concreta. En ese caso, escribe Disallow: el camino de la página desde la raíz de la web, es decir, todo lo que se encuentra detrás de la extensión (.com, .fr, .emiweb.es, etc). Por ejemplo, para la dirección http://www.ejemplo.emiweb.es/paginas/categoria/pagina1.html, tendríamos que incluir /paginas/categoria/pagina1.html

Robots txt 4

De la misma manera, si necesitas excluir varias URLs de la indexación, puedes añadir tantas líneas Disallow como necesites.

Robots txt 5


¿Cómo restaurar el archivo inicial?

Si después de haber editado el archivo robots.txt quieres restaurar el archivo original y automático, dirígete a Marketing > Posicionamiento > Robots, marca la casilla Robots.txt automático y guarda la página.


Importante

Te recordamos que debes utilizar esta opción con cuidado, ya que un error en la escritura tendrá un efecto no deseado en el posicionamiento de tu página web. Por defecto, no es necesario efectuar ninguna modificación en el archivo robots.txt.

Si quieres más información sobre el archivo robots.txt te recomendamos leer el artículo de Google sobre el tema