A veces, es posible que deba evitar que los robots de SEO rastreen su sitio web, si no desea que su contenido se indexe en línea. Aquí le mostramos cómo evitar que los robots de SEO rastreen su sitio usando el archivo robots.txt. También puede seguir estos pasos para evitar que todos los bots de spam y bots maliciosos rastreen su sitio web.
Cómo evitar que los robots de SEO rastreen su sitio
Estos son los pasos para evitar que los robots de SEO rastreen su sitio usando el archivo robots.txt.
¿Qué es robots.txt?
Robots.txt es un archivo de texto que contiene instrucciones de rastreo para los bots entrantes. Los robots de búsqueda, los robots de spam y otros robots buscan este archivo antes de rastrear su sitio web. Proceden según las instrucciones presentes en este archivo. Robots.txt se debe servir en la URL www.yourdomain.com/robots.txt. Por lo tanto, si su sitio web es www.helloworld.com, el archivo robots.txt debe estar en www.helloworld.com/robots.txt
Puede usar robots.txt para decirles a los robots de búsqueda que no rastreen todo su sitio web o carpetas y páginas específicas en él.
Hay bastantes reglas disponibles para instruir a los robots de rastreo. Los más comunes son:
- Agente de usuario: Usuario de bots de búsqueda Atributo de agente de usuario para identificarse. Puede permitir/no permitir los bots de rastreo mencionando sus nombres de agente de usuario.
- Rechazar: especifica los archivos o carpetas que no se pueden rastrear.
- Demora de rastreo: especifica la cantidad de segundos que un bot debe esperar antes de rastrear cada página
- Comodín
: Solía referirse a todos los bots
Lectura adicional: Configuración NGINX SSL (paso a paso)
Cómo evitar que los robots de búsqueda rastreen su sitio web
Veremos algunos ejemplos para impedir que los robots rastreen su sitio. Estos son los nombres de agentes de usuario de bots comunes para su referencia: Googlebot, Yahoo!, Slurp bingbot, AhrefsBot, Baiduspider, Ezooms, MJ12bot, YandexBot
No permitir que todos los motores de búsqueda rastreen el sitio web
User-agent: * Disallow: /
Esto es lo que debe agregar a su archivo robots.txt si desea impedir que todos los bots rastreen su sitio web
En la configuración anterior, usamos un comodín * para la regla de agente de usuario para no permitir todo en robots.txt. Usamos la URL de inicio (/) en la regla No permitir para especificar el sitio web completo.
En este caso, prohibimos que todos los bots rastreen todo nuestro sitio web.
Lectura adicional: Linux enumera todos los procesos por nombre, usuario, PID
Permitir que todos los motores de búsqueda rastreen el sitio web
User-agent: * Disallow:
Esto es lo que necesita agregar a su archivo robots.txt si desea permitir que todos los bots rastreen su sitio web
En la configuración anterior, usamos un comodín * para que el agente de usuario especifique todos los bots de rastreo. Dejamos la regla Disallow en blanco.
En este caso, permitimos que todos los bots rastreen todo nuestro sitio web.
Lectura adicional: Cómo evitar el hotlinking de imágenes en NGINX
No permitir un motor de búsqueda específico del sitio web de rastreo
User-agent: BaiduSpider Disallow: /
Si desea prohibir que solo un bot de rastreo específico rastree su sitio web, mencione su nombre de usuario en la regla de nombre de usuario Apache
Lectura adicional: Cómo enumerar todos los hosts virtuales en
No permitir que todos los motores de búsqueda rastreen carpetas específicas
User-agent: * Disallow: /uploads Disallow: /product
Si desea impedir que todos los motores de búsqueda rastreen carpetas específicas (p. ej., /producto, /cargas), menciónelos por separado en la regla No permitir
No permitir que todos los motores de búsqueda rastreen archivos específicos
User-agent: * Disallow: /signup.html Disallow: /payment.php
Si desea impedir que todos los motores de búsqueda rastreen archivos específicos (p. ej., /signup.html, /payment.php), menciónelos por separado en la regla No permitir
Siempre puede usar una combinación de las configuraciones anteriores en su archivo robots.txt.
Con suerte, ahora puede impedir fácilmente que los bots de SEO rastreen su sitio web.
milímetro
Acerca de CodePre CodePre es una poderosa plataforma de informes y tableros para pequeñas y medianas empresas. Cree paneles, gráficos e informes para su negocio en minutos. Obtenga información de los datos rápidamente. ¡Pruébalo gratis hoy!