Cómo evitar que los robots de SEO rastreen su sitio

A veces, es posible que deba evitar que los robots de SEO rastreen su sitio web, si no desea que su contenido se indexe en línea. Aquí le mostramos cómo evitar que los robots de SEO rastreen su sitio usando el archivo robots.txt. También puede seguir estos pasos para evitar que todos los bots de spam y bots maliciosos rastreen su sitio web.

Cómo evitar que los robots de SEO rastreen su sitio

Estos son los pasos para evitar que los robots de SEO rastreen su sitio usando el archivo robots.txt.

¿Qué es robots.txt?

Robots.txt es un archivo de texto que contiene instrucciones de rastreo para los bots entrantes. Los robots de búsqueda, los robots de spam y otros robots buscan este archivo antes de rastrear su sitio web. Proceden según las instrucciones presentes en este archivo. Robots.txt se debe servir en la URL www.yourdomain.com/robots.txt. Por lo tanto, si su sitio web es www.helloworld.com, el archivo robots.txt debe estar en www.helloworld.com/robots.txt

Puede usar robots.txt para decirles a los robots de búsqueda que no rastreen todo su sitio web o carpetas y páginas específicas en él.

Hay bastantes reglas disponibles para instruir a los robots de rastreo. Los más comunes son:

  • Agente de usuario: Usuario de bots de búsqueda Atributo de agente de usuario para identificarse. Puede permitir/no permitir los bots de rastreo mencionando sus nombres de agente de usuario.
  • Rechazar: especifica los archivos o carpetas que no se pueden rastrear.
  • Demora de rastreo: especifica la cantidad de segundos que un bot debe esperar antes de rastrear cada página
  • Comodín

: Solía ​​referirse a todos los bots

Lectura adicional: Configuración NGINX SSL (paso a paso)

Cómo evitar que los robots de búsqueda rastreen su sitio web

Veremos algunos ejemplos para impedir que los robots rastreen su sitio. Estos son los nombres de agentes de usuario de bots comunes para su referencia: Googlebot, Yahoo!, Slurp bingbot, AhrefsBot, Baiduspider, Ezooms, MJ12bot, YandexBot

No permitir que todos los motores de búsqueda rastreen el sitio web

User-agent: *
Disallow: /

Esto es lo que debe agregar a su archivo robots.txt si desea impedir que todos los bots rastreen su sitio web

En la configuración anterior, usamos un comodín * para la regla de agente de usuario para no permitir todo en robots.txt. Usamos la URL de inicio (/) en la regla No permitir para especificar el sitio web completo.

En este caso, prohibimos que todos los bots rastreen todo nuestro sitio web.

Lectura adicional: Linux enumera todos los procesos por nombre, usuario, PID

Permitir que todos los motores de búsqueda rastreen el sitio web

User-agent: *
Disallow:

Esto es lo que necesita agregar a su archivo robots.txt si desea permitir que todos los bots rastreen su sitio web

En la configuración anterior, usamos un comodín * para que el agente de usuario especifique todos los bots de rastreo. Dejamos la regla Disallow en blanco.

En este caso, permitimos que todos los bots rastreen todo nuestro sitio web.

Lectura adicional: Cómo evitar el hotlinking de imágenes en NGINX

No permitir un motor de búsqueda específico del sitio web de rastreo

User-agent: BaiduSpider
Disallow: /

Si desea prohibir que solo un bot de rastreo específico rastree su sitio web, mencione su nombre de usuario en la regla de nombre de usuario Apache

Lectura adicional: Cómo enumerar todos los hosts virtuales en

No permitir que todos los motores de búsqueda rastreen carpetas específicas

User-agent: *
Disallow: /uploads
Disallow: /product

Si desea impedir que todos los motores de búsqueda rastreen carpetas específicas (p. ej., /producto, /cargas), menciónelos por separado en la regla No permitir

No permitir que todos los motores de búsqueda rastreen archivos específicos

User-agent: *
Disallow: /signup.html
Disallow: /payment.php

Si desea impedir que todos los motores de búsqueda rastreen archivos específicos (p. ej., /signup.html, /payment.php), menciónelos por separado en la regla No permitir

Siempre puede usar una combinación de las configuraciones anteriores en su archivo robots.txt.

Con suerte, ahora puede impedir fácilmente que los bots de SEO rastreen su sitio web.

milímetro

Acerca de CodePre CodePre es una poderosa plataforma de informes y tableros para pequeñas y medianas empresas. Cree paneles, gráficos e informes para su negocio en minutos. Obtenga información de los datos rápidamente. ¡Pruébalo gratis hoy!

Related Posts