Cómo crear el archivo robots.txt perfecto para SEO

El archivo robots.txt es uno de los elementos más importantes para el posicionamiento web de tu sitio.

Se trata de un archivo de texto que se coloca en la raíz del dominio y que le indica a los robots de búsqueda qué páginas o secciones de tu web deben rastrear y cuáles no.

El objetivo del archivo robots.txt es optimizar el el tiempo y los recursos que dedican los motores de búsqueda a examinar tu sitio web.

Al bloquear las páginas que no son relevantes o que pueden generar contenido duplicado, le facilitas el trabajo a los robots y les ayudas a encontrar e indexar las páginas que realmente te interesan.

Pero crear el archivo robots.txt perfecto para SEO no es tan sencillo como parece. Hay que tener en cuenta una serie de reglas y comandos que pueden variar según el tipo de sitio web, el CMS que utilices o los objetivos que persigas.

En este artículo te explicaremos cómo crear el archivo robots.txt perfecto para SEO, qué comandos debes usar y qué errores debes evitar. También te mostraremos algunos ejemplos prácticos para diferentes tipos de sitios web.

¿Qué es el archivo robots.txt?

El archivo robots.txt es un archivo de texto plano que se coloca en la carpeta raíz del dominio. Por ejemplo, si tu sitio web es https://tusitio.com, el archivo robots.txt se encontraría en https://tusitio.com/robots.txt.

Este archivo se puede editar con un simple editor de texto como el bloc de notas o el notepad. Su función es comunicar a los robots de búsqueda las partes del sitio web que no quieres que rastreen o indexen.

El archivo robots.txt utiliza el estándar de exclusión de robots, un protocolo que utiliza una serie de parámetros o comandos para indicar los accesos a la web por secciones y por tipos de rastreadores.

Cada sitio web puede tener un único archivo robots.txt en la raíz del dominio. Este archivo es público y cualquiera puede consultarlo. De hecho, lo primero que hacen los robots de búsqueda al llegar a un sitio web es leer el archivo robots.txt para saber qué pueden y qué no pueden hacer.

¿Por qué es importante el archivo robots.txt para SEO?

El archivo robots.txt es importante para SEO por varias razones:

Te permite optimizar el proceso de rastreo de los motores de búsqueda al indicarles qué páginas son relevantes y cuáles no. Así evitas que los robots pierdan tiempo y recursos en rastrear páginas que no te interesan o que pueden perjudicar tu posicionamiento.
Te permite evitar problemas de contenido duplicado al bloquear las páginas o secciones que generan versiones similares o idénticas de otras páginas. Por ejemplo, las páginas de categorías, etiquetas, archivos o resultados de búsqueda interna.
Te permite proteger la privacidad y la seguridad de tu sitio web al bloquear las páginas o secciones que contienen información sensible o confidencial. Por ejemplo, las páginas de administración, login, registro o pago.
Te permite mejorar la experiencia de usuario al bloquear las páginas o secciones que no aportan valor o que pueden generar confusión. Por ejemplo, las páginas en construcción, las páginas 404 o las páginas con errores.

¿Qué comandos debes usar en el archivo robots.txt?

El archivo robots.txt está formado por una serie de comandos o directivas que le indican a los robots de búsqueda cómo deben comportarse. Los principales comandos son:

User-agent:
sirve para especificar a qué robot o grupo de robots se dirige la regla. Se puede usar el asterisco (*) para referirse a todos los robots o el nombre específico del robot (por ejemplo, Googlebot) para referirse solo a ese robot.
Disallow:
sirve para indicar las páginas o carpetas que no quieres que se rastreen. Se puede usar el slash (/) para referirse a todo el sitio web o la ruta específica de la página o carpeta (por ejemplo, /search) para referirse solo a esa parte.

Allow:
sirve para indicar las páginas o carpetas que sí quieres que se rastreen. Se usa de la misma forma que el comando Disallow, pero con el efecto contrario.
Sitemap:
sirve para indicar la ubicación del mapa del sitio web.
l mapa del sitio web es un archivo que contiene un listado de todas las páginas de tu web y que facilita el rastreo e indexación de las mismas. Se puede usar la URL completa del mapa del sitio (por ejemplo, https://tusitio.com/sitemap.xml) para referirse a él.

Estos son los comandos básicos que debes usar en el archivo robots.txt. Hay otros comandos más avanzados que puedes usar, como Crawl-delay, Noindex, Noarchive o Nofollow, pero debes tener en cuenta que no todos los robots los reconocen o los respetan. Por eso, es mejor usarlos con precaución y solo si sabes lo que estás haciendo.

¿Cómo crear el archivo robots.txt perfecto para SEO?

Para crear el archivo robots.txt perfecto para SEO, debes seguir estos pasos:

Identifica las páginas o secciones de tu web que no quieres que se rastreen o indexen. Por ejemplo, las páginas de administración, las páginas de resultados de búsqueda interna, las páginas de categorías o etiquetas, las páginas en construcción o con errores, etc.
Crea un archivo de texto con el nombre robots.txt y escribe los comandos necesarios para bloquear esas páginas o secciones. Recuerda usar el comando User-agent para especificar a qué robots se dirige la regla, el comando Disallow para indicar lo que no quieres que se rastree, el comando Allow para indicar lo que sí quieres que se rastree y el comando Sitemap para indicar la ubicación del mapa del sitio.
Guarda el archivo y súbelo a la raíz del dominio. Puedes usar un cliente FTP como Filezilla o el panel de control de tu hosting para hacerlo.
Verifica que el archivo robots.txt funciona correctamente. Puedes usar la herramienta de prueba de robots.txt de Google Search Console para comprobar si el archivo se lee correctamente y si bloquea las páginas o secciones que quieres.

Ejemplos de archivo robots.txt para diferentes tipos de sitios web

A continuación te mostramos algunos ejemplos de archivo robots.txt para diferentes tipos de sitios web:

Un sitio web simple que quiere permitir el rastreo e indexación de todas sus páginas:

User-agent: *
Allow: /
Sitemap: https://tusitio.com/sitemap.xml

Un sitio web con WordPress que quiere bloquear las páginas de administración, login y comentarios:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-login.php
Disallow: /comments/
Allow: /
Sitemap: https://tusitio.com/sitemap.xml

Un sitio web con un blog que quiere bloquear las páginas de categorías, etiquetas y archivos:

User-agent: *
Disallow: /category/
Disallow: /tag/
Disallow: /archive/
Allow: /
Sitemap: https://tusitio.com/sitemap.xml

Un sitio web con una tienda online que quiere bloquear las páginas de carrito, checkout y mi cuenta:

User-agent: *
Disallow: /cart/
Disallow: /checkout/
Disallow: /my-account/
Allow: /
Sitemap: https://tusitio.com/sitemap.xml

Estos son solo algunos ejemplos ilustrativos. Cada sitio web puede tener unas necesidades y objetivos diferentes, por lo que es importante adaptar el archivo robots.txt a cada caso.

Errores comunes al crear el archivo robots.txt

Al crear el archivo robots.txt, debes tener cuidado de no cometer algunos errores comunes que pueden afectar negativamente al SEO de tu web. Algunos de estos errores son:

Bloquear todo el sitio web por error. Si usas el comando Disallow con el slash (/) sin especificar ninguna página o carpeta, estarás bloqueando todo el sitio web. Esto hará que los robots no puedan rastrear ni indexar ninguna página y tu web desaparecerá de los resultados de búsqueda.
Bloquear las páginas o recursos que son necesarios para el rendimiento o la apariencia del sitio web. Por ejemplo, las hojas de estilo, los scripts, las imágenes o los vídeos. Esto hará que tu web se vea mal o que no funcione correctamente, lo que afectará a la experiencia de usuario y al posicionamiento.
Bloquear las páginas que quieres que se indexen. Por ejemplo, las páginas principales, las páginas de productos o servicios, las páginas de contacto o las páginas de contenido relevante. Esto hará que tu web pierda visibilidad y tráfico en los resultados de búsqueda.
Usar comandos incorrectos o no reconocidos. Por ejemplo, usar mayúsculas o minúsculas indistintamente, usar espacios o signos de puntuación innecesarios, usar comandos que no existen o que no son compatibles con todos los robots. Esto hará que tu archivo robots.txt no se interprete correctamente y que no cumpla su función.

Para evitar estos errores, es recomendable revisar el archivo robots.txt antes de subirlo al servidor y comprobar su funcionamiento con la herramienta de prueba de robots.txt de Google Search Console.

Conclusión

El archivo robots.txt es un elemento clave para el SEO de tu sitio web. Te permite optimizar el presupuesto de rastreo de los motores de búsqueda, evitar problemas de contenido duplicado, proteger la privacidad y la seguridad de tu web y mejorar la experiencia de usuario.

Para crear el archivo robots.txt perfecto para SEO, debes identificar las páginas o secciones que no quieres que se rastreen o indexen, crear un archivo de texto con los comandos adecuados, subirlo a la raíz del dominio y verificar que funciona correctamente.

Recuerda que el archivo robots.txt es público y que cualquiera puede consultarlo. Por eso, debes tener cuidado de no cometer errores que puedan perjudicar tu posicionamiento o revelar información sensible.

Esperamos que este artículo te haya sido útil para crear el archivo robots.txt perfecto para SEO. Si tienes alguna duda o sugerencia, déjanos un comentario y te responderemos lo antes posible.

Cómo crear el archivo "robots.txt" perfecto para SEO