Publicado en
July 9, 2024

¿Qué es un robot.txt y por qué es importante para tu web? - Novicell

Silvia Tessarin
SEO Specialist

Robots.txt: una guía sobre qué es y cómo crearlo

Uno de los componentes esenciales en el SEO técnico es el robots.txt, un poderoso archivo que guía a los motores de búsqueda en la lectura e indexación de un sitio web.

¿Qué es exactamente este archivo y por qué estan importante? Acompáñanos en este recorrido para descubrirlo.

¿Qué es un robots.txt?

El robots.txt es un archivo de texto plano que sirve para comunicar a los bots delos motores de búsqueda qué páginas pueden rastrear y cuáles no. Este archivo juega un papel fundamental en la gestión del rastreo web, ayudando a los webmasters a controlar la visibilidad de su contenido en los motores de búsqueda.

¿Cómo ver si tengo archivo robots.txt?

Verificar si tu sitio web tiene un archivo robots.txt es un proceso sencillo. Para hacerlo, simplemente abre tu navegador web y escribe la URL de tu dominio seguida de "/robots.txt".

Por ejemplo, si tu dominio es www.example.com, debes ingresar www.example.com/robots.txt en la barra de direcciones y presionar Enter. Si el archivo existe, el navegador mostrará su contenido, permitiéndote ver las reglas establecidas. Si no existe, verás un mensaje de error 404, indicando que el archivo no se ha encontrado.

Puedes utilizar herramientas como Google Search Console para verificar que el archivo está siendo correctamente leído por el bot de Google, así como ver el histórico de archivos robots.txt de tu web.

¿Cómo funciona un robots.txt?

La estructura de un archivo robots.txt es bastante sencilla y linear: una vez comprendidas las reglas e instrucciones base, será sencillo leer y crear un archivo robot.txt que funcione correctamente.

Debes tener en cuenta algunas consideraciones en tu robots.txt:

·       Siempre después de la sintaxis sedebe añadir dos puntos ( : )

·       Las reglas del robots.txtdistinguen entre mayúsculas y minúsculas

·       No bloquees páginas específicas con esta regla, su uso está más orientado en bloquear el acceso a subdirectorios con varias páginas

La sintaxis del robot.txt es la siguiente:

  •    User-agent
  • ·       Disallow
  • ·       Allow
  • ·       Sitemap

Vamos a verlas en detalle.

User-agent

User-agent especifica a qué motor de búsqueda o robot se aplican las reglas. Cada motor de búsqueda tiene su propio nombre, pero, si no se especifica ninguno y se pone *,se entiende que las reglas aplican para todos los bots.

Uso:

  • User-agent: * se utiliza para aplicar las reglas a todos los motores de búsqueda.
  • Es posible especificar reglas diferentes para distintos motores de búsqueda.

Comando Disallow

Disallow indica qué partes del sitio web no deben ser rastreadas por los motores de búsqueda especificados en la directiva User-agent.

Uso:

  • Cada línea Disallow debe irseguida de la ruta relativa que se desea bloquear.
  • Si se desea bloquear todo el sitio web, se utiliza una sola barra diagonal ( / )
  • Se usa para bloquear subdirectorios, o más coloquialmente carpetas, específicas o todo lo que se desprenda de ciertas carpetas

Comando Allow

Allow especifica qué partes del sitio web pueden ser rastreadas por los motores de búsqueda, incluso si una regla Disallow más amplia podría implicar lo contrario. Es útil en combinaciones complejas donde queremos rastrear una subcarpeta de otra previamente bloqueada.

Uso:

  • Cada línea Allow debe ir seguida de la ruta de acceso relativa que se desea permitir.
  • No es necesario añadir esta directiva por cada carpeta del sitio web, solo se recomienda cuando se tenga que especificar una carpeta que podría resultar bloqueada por otra regla.

Comando Sitemap

Sitemap proporciona la ubicación de los diferentes archivos sitemap XML del sitio web. Este archivo ayuda a los motores de búsqueda a encontrar todas las URLs del sitio que deberían ser rastreadas e indexadas, o sea, todas las URL de sitios que responden con un código 200 y tienen la etiqueta index.

Uso:

  • La directiva Sitemap debe ir seguida de la URL absoluta del archivo sitemap.
  • Se pueden añadir los diferentes sitemap.xml que tenga el sitio web (versiones por idioma, imágenes, documentos,etc)

Ejemplos prácticos de uso de reglas de robot.txt

Hablar del bot y sus reglas puede parecer muy abstracto, así que hemos creado una tabla con algunos ejemplos concretos:

¿Cómo crear un archivo.txt?

Para crear un archivo robots.txt y configurarlo correctamente en tu sitio web, sigue estos sencillos pasos:

1.     Escribir las reglas en un editor de texto: Para escribir las reglas utiliza cualquier editor de texto simple (asegurándote de que esté en modo de texto plano) y define las reglas utilizando las directivas `User-agent`, `Disallow`,`Allow` y `Sitemap`.

2.     Subir el archivo a la raíz del dominio: Guarda el archivo con el nombre`robots.txt` y súbelo a la raíz de tu dominio.

3.     Verificar y probar: Accede a `http://www.tusitio.com/robots.txt` desde tu navegador para asegurarte de que esté accesible. Utiliza herramientas como Google Search Console para probar y validar la configuración del archivo, asegurándote de que los motores de búsqueda lo interpreten correctamente.

Por qué el robots.txt es importante para el SEO de tu web

Utilizar el archivo robots.txt ofrece múltiples ventajas para la gestión y optimización de un sitio web. A continuación, se detallan algunos de los beneficios más significativos que pueden obtenerse al implementar correctamente este archivo.

Optimización del rastreo

El archivo robots.txt juega un papel fundamental en la optimización del rastreo de un sitio web por parte de los motores de búsqueda. Al especificar qué páginas o archivos deben ser rastreados y cuáles deben ser ignorados, este archivo guía a los robots de búsqueda para que se concentren en el contenido más relevante. Por ejemplo, puedes evitar que se rastreen páginas sensibles para tu empresa, páginas generadas automáticamente por el CMS o archivos que no aportan valor al usuario.

Al hacerlo, los motores de búsqueda pueden utilizar los recursos que tienen para cada sitio de manera más eficiente, dedicando más tiempo a rastrear e indexar las páginas que realmente importan. Esto no solo mejora la cobertura de tu sitio en los resultados de búsqueda,sino que también puede acelerar la indexación de nuevo contenido, asegurando que las páginas más importantes se actualicen más rápidamente en los índices de los motores de búsqueda.

Mejora del rendimiento del sitio

El uso adecuado del archivo robots.txt también contribuye significativamente a la mejora del rendimiento del sitio web, especialmente si se trata de sitios webs con muchos niveles de páginas. Cuando los robots intentan rastrear las páginas de un sitio sin restricciones, pueden consumir muchos recursos del servidor. Esto puede llevar a, en casos extremos, a la caída del sitio web debido a la sobrecarga del servidor.

Al limitar el acceso de los robots de búsqueda a solo aquellas páginas que realmente necesitas que sean leídas e indexadas, reduces el número de solicitudes que tu servidor debe manejar. Esto no solo libera recursos para los visitantes humanos, mejorando su experiencia de navegación, sino que también puede resultar en un menor coste de operación si estás utilizando un servidor con recursos limitados o un plan de hospedaje que cobra en función del uso del ancho de banda.

Protección de contenido sensible

La protección de contenido sensible es otra de las funciones cruciales del archivo robots.txt. En muchos sitios web, hay páginas y archivos que contienen información privada o confidencial que no debe ser accesible públicamente a través de los motores debúsqueda. Estos pueden incluir páginas de inicio de sesión, directorios administrativos, archivos con información interna de la empresa, o incluso contenido en desarrollo que aún no está listo para ser lanzado al público.

Al especificar en el archivo robots.txt que estos elementos no deben ser rastreados, se añade una capa adicional de seguridad. Aunque no es una medida de seguridad infalible (ya que los archivos robots.txt son públicos y pueden ser leídos por cualquier persona), es un primer paso importante para evitar que esta información aparezca en los resultados de búsqueda. Para una protección más robusta, estos archivos y páginas sensibles también deben estar protegidos mediante credenciales y un inicio de sesión.

Mejores prácticas para optimizar un robots.txt

  • Actualización regular: Es importante mantener el archivo robots.txt actualizado para reflejar eventuales cambios en la estructura y contenido del sitio web.
  • Verificación y pruebas: Utiliza herramientas como Google Search Console para probar y verificarla efectividad del archivo robots.txt. Esto asegura que las reglas establecidas se apliquen correctamente.

Errores comunes y cómo evitarlos

El archivo robots.txt puede ser fuente de errores que impactan negativamente en el SEO y la funcionalidad de un sitio web. Conocer estos errores comunes y cómo evitarlos es crucial para asegurar que tu sitio web esté correctamente indexado y accesible para los motores de búsqueda.

Robots.txt no en la raíz del dominio

Los bots solo pueden descubrir el archivo si está en la raíz del dominio. Por esa razón, entre el dominio .com (o equivalente) de tu sitio web y el nombre de archivo 'robots.txt' en la URL de tu archivo robots.txt, debería haber solo una barra diagonal hacia adelante (/),por ejemplo:

www.esunejemplo.com/robots.txt

Si hay una subcarpeta (www.esunejemplo.com/es-es/robots.txt),tu archivo robots.txt no será visible correctamente para los robots de búsqueda y tu sitio web podría comportarse como si no tuviera archivo robots.txt. Para solucionar este problema, mueve tu archivo robots.txt a la raíz del dominio.

También, si trabajas con subdominios, es importante considerar que debes crear un archivo robots.txt para cada uno de ellos, diferente al del dominio principal.

Errores de sintaxis y bloqueo de contenido importante

Un pequeño error en el archivo robots.txtpuede resultar en el bloqueo de páginas importantes. Por ejemplo, añadir una barra diagonal extra podría impedir el rastreo del sitio entero o impedir que ciertas páginas cruciales no se rastreen, lo que significa que no las indexan los motores de búsqueda. Esto podría disminuir el tráfico orgánico hacia esas páginas y afectar negativamente el rendimiento general de tu sitio en cuanto a visibilidad y posicionamiento en los resultados de búsqueda.

Es crucial revisar y verificar cuidadosamente el archivo robots.txt para asegurarse de que no contenga errores que puedan limitar el acceso de los motores de búsqueda a las áreas importantes de tu sitio web.

Fallo en la actualización

No mantener el archivo actualizado puede llevar a que se indexen páginas no deseadas o a que importantes páginas queden fuera del índice de los motores de búsqueda.

Cómo Novicell puede ayudarte con el archivo robots.txt

En Novicell podemos asesorarte en la creación y configuración de tu archivo robots.txt y en muchos otros aspectos del SEO técnico. Nuestros expertos evaluarán tu sitio web para definir las reglas más adecuadas, asegurando que los motores de búsqueda rastreen únicamente el contenido relevante, mejorando así la visibilidad y el rendimiento de tu sitio.

Además, en Novicell realizamos una monitorización continua y ajustes estratégicos para mantener tu sitio web actualizado, protegiendo tu contenido sensible y optimizando tu presencia en línea. ¡Contacta ahora con nosotros!