Robots.txt Influye en Seo
Robots.txt y su influencia en las estrategias SEO
Robots.txt es un archivo en su sitio web que le dice a los rastreadores, es decir, a los robots de los motores de búsqueda, qué páginas puede leer e indexar para mostrarlas en los resultados de búsqueda de los motores de búsqueda (como Google).
Hoy hablaremos sobre robots.txt, para qué sirve, por qué es tan importante, cómo se ve la sintaxis de robots.txt, cómo crear (y probar) robots.txt, entre otros temas.
Robots.txt es un gran aliado para el SEO de tu sitio web, ayudando a indexar correctamente el contenido de forma optimizada. Entérate de todo a continuación.
¿Qué es robots.txt?
Es un archivo que se guarda en la carpeta raÃz de un sitio y le dice a los robots de búsqueda (como Google, Bing, entre otros) qué páginas deben o no indexarse en la base de datos de los motores de búsqueda.
En este caso, robots.txt utiliza un conjunto de comandos, denominado Protocolo de Exclusión de Robots, que se aplica a los robots de búsqueda para que sepan a qué páginas no deben acceder.
El archivo, guardado en la carpeta raÃz del sitio, es fácil de acceder, simplemente escribiendo la dirección del sitio en un navegador, seguido del nombre de archivo “/robots.txt”.
¿Para qué sirve el archivo robots.txt?
En definitiva, robots.txt sirve para ordenar lo que pueden y no pueden ver los robots de búsqueda. Entienda mejor, a continuación, el concepto de algunas funciones especÃficas.
Controlar el acceso a determinadas páginas web
Un sitio web está formado por páginas web, y robots.txt, además de prohibir que los robots de búsqueda como Googlebot, accedan a determinadas páginas (que pueden contener datos restringidos o información irrelevante para tu estrategia), también ayuda a evitar la sobrecarga de acceso. por robots de búsqueda en el servidor que aloja el sitio.
Importante: aunque los robots de búsqueda no puedan acceder a determinadas páginas, nada impedirá que el usuario lo haga si dispone del enlace de acceso directo.
Controlar el acceso a ciertas imágenes
Robots.txt, además de restringir el acceso del robot a ciertas páginas, también evita que los archivos de imagen de su sitio web aparezcan en los resultados de búsqueda.
Esto es muy efectivo si existe la necesidad de mantener la información segura y con restricciones de acceso.
También puede ayudar como estrategia, ya que el usuario se verá obligado a ingresar a la página para ver la imagen, lo que suele ser interesante para algunas empresas.
Bloquear el acceso a los archivos de recursos
Además de restringir el acceso a páginas e imágenes, robots.txt también bloquea el acceso a archivos o scripts menos importantes, lo que ayuda a salvar servidores.
Incluso en el caso de archivos menores, se debe tener cuidado al usar esta función de robots.txt, especialmente cuando se trata de archivos que son esenciales para la carga de la página, ya que, al dificultar el trabajo de los robots rastreadores, como el rastreador, la página en su conjunto puede resultar dañada.
Cómo evitar la indexación de ciertas páginas del sitio
Como se ha dicho, se puede utilizar robots.txt para impedir el acceso y, en consecuencia, la indexación de determinadas páginas o archivos de un sitio web.
En este caso, un ejemplo sencillo de robots.txt que puede impedir la indexación del sitio en su conjunto por parte de los motores de búsqueda serÃa:
- Agente de usuario: *
- No permitir: /
- Un ejemplo que servirÃa para evitar la indexación de una carpeta en particular podrÃa ser:
- Agente de usuario: *
- No permitir: /cgi-bin/
Ejemplo de una página que generalmente se evita indexar
¿Por qué es importante robots.txt?
Entre las principales razones que hacen que robots.txt sea importante, se pueden destacar:
Evite rastrear algunas páginas
Es normal que un sitio tenga páginas para uso interno, un área de inicio de sesión o una página aún en desarrollo.
Todos estos lugares a menudo usan robots.txt para evitar el seguimiento de robots.
Además de las propias páginas, se puede restringir el acceso a archivos, imágenes e incluso recursos.
Para quienes invierten en SEO, es una gran herramienta, ya que la idea es atraer potenciales leads a una página especÃfica, como una landing page, y no al material final, por ejemplo.
Indique sus mapas de sitio
Esta es una función considerada muy simple, pero ayuda a los motores de búsqueda, como Google y Bing, a encontrar sus mapas de sitio y, de esta manera, comprender mejor la organización de su sitio.
El tiempo de seguimiento de los robots en su sitio es limitado
Es importante saber que Google ya se posicionó en el “Crawl Budget”, su lÃmite de rastreo.
Para aquellos que no saben, en la práctica, esto significa que, al no usar robots.txt para decirle a Google qué páginas no debe rastrear, puede perder mucho más tiempo rastreando páginas que no importan y fallando en el rastreo. los que desee aparecen en los resultados de búsqueda.
Si el rastreador de Google tiene problemas para rastrear e indexar el sitio, el problema puede ser el lÃmite impuesto por el presupuesto de rastreo.
En ese sentido, restringir el rastreo a ciertas páginas soluciona el problema.
sintaxis de robots.txt
Robots.txt tiene como objetivo crear un protocolo de acceso para robots de búsqueda.
Para poder ejecutar completamente esta designación, existen expresiones especÃficas, es decir, expresiones con el objetivo de pasar un comando que permite, o no, acceder a determinados lugares o páginas.
Los comandos principales dentro de la sintaxis de robots.txt son:
agente de usuario
Es posible aplicar pautas especÃficas para cada tipo de robot de búsqueda presente en la red.
Para hacer esto, debe usar el comando User-agent y determinar el robot al que se refiere.
El principal robot de búsqueda de Google, por ejemplo, es Googlebot. Sabiendo esto, para darle una orden, necesitas usar el siguiente comando:
- Agente de usuario: robot de Google
- Es decir, basta con indicar el nombre del User-agent.
- No permitir y Permitir
rechazar
El comando se refiere a los lugares y páginas que no deben indexarse en los motores de búsqueda.
Ejemplos podrÃan ser: Robots.txt
Disallow: /prod/ – guÃa a los robots de búsqueda para que no indexen el contenido dentro de la carpeta “prod”;
Disallow: print1.html: indica a los motores de búsqueda que no indexen el contenido de la página print1.html.
permitir
El comando Permitir, por otro lado, guÃa a los robots en relación a las páginas y otros lugares que pueden indexar sus contenidos, es decir, las páginas que estarán permitidas.
Es importante tener en cuenta que el comando solo debe usarse en situaciones en las que el acceso a una ubicación fue bloqueado por un comando Disallow, pero la intención era haber indexado un archivo dentro de la página bloqueada.
Permitir permite indexar el directorio de la siguiente manera:
Permitir: /catálogos/sobre
Otro ejemplo: si necesita bloquear una carpeta ('archivos'), pero mantener el acceso a los directorios ('proyectos'), el comando serÃa:
No permitir: /archivos/
Permitir: /archivos/proyectos/
mapa del sitio
Otro comando muy importante de robots.txt es la indicación del sitemap del sitio, archivo muy útil para ayudar a los robots rastreadores a localizar todas las páginas existentes.
Aunque es muy usable, el comando sitemap ha caÃdo en desuso, y esto se debe a Google Webmaster Tools, una herramienta que te permite identificar la ubicación de tu archivo sitemap de una forma más práctica.
Ejemplo:
mapa del sitio: https://www.conversion.com.br/sitemap_index.xml
Cómo crear y probar su archivo robots.txt
Es posible crear un archivo robots.txt utilizando un editor de texto simple, y solo eso, según sus preferencias.
Después de conocer bien la sintaxis de un archivo robots.txt, comience por configurar el User-agent, para que pueda ser aplicado a todos los robots de búsqueda, para eso, coloque un asterisco después del término;
El siguiente paso es escribir "Deshabilitar" (y nada más);
Dado que no habrá nada después de "No permitir", los robots de búsqueda rastrearán todo el sitio (sin obstáculos).
Este tutorial puede considerarse lo básico de robots.txt.
Recordando que también se puede adaptar según técnicas SEO para optimizar la indexación de tus páginas.
como probar
Es fundamental probar el archivo robots.txt para asegurarse de que todo funciona correctamente.
Hoy, Google tiene una herramienta de prueba gratuita dentro de la plataforma Search Console.
De esta manera, debe acceder a la herramienta de prueba de robots.txt , seleccionar el sitio asociado con la cuenta de Google Search Console que desea probar y luego hacer clic en "Probar".
Esta herramienta te permite probar la dirección de diferentes páginas y archivos para validar si Googlebot tendrá o no acceso a ellos.
Si después de la prueba ves la información “Permitido”, es señal de que robots.txt puede acceder a la URL indicada.
Si ve la información “Bloqueado”, la herramienta le indicará qué regla está bloqueando la lectura de la URL indicada.
Importante: Cargue siempre robots.txt en la raÃz de su sitio.
Ejemplo de herramienta de prueba de Google Search Consol robots.txt y
Conclusión
Robots.txt , cuando se configura de la mejor manera posible, puede generar más resultados para su SEO y mejorar la experiencia del usuario.
Cuando los robots de búsqueda lleguen a su sitio, sabrán qué archivos indexar, lo que significa una mejor vista de su sitio para quienes realizan una búsqueda.
Al usar robots.txt correctamente, es posible hacer que su sitio sea más visible y mejorar la experiencia del usuario, creando un cÃrculo virtuoso en el que robots.txt asegura que el flujo se dirija a lugares que brindan mayores oportunidades de conversión.
Agencia Seo en Lima; Respondemos a toda las preguntas que usted tenga sobre La Importancia del Seo, tal solo escribiendo a Contacto
"robots txt","googlebot robots txt","robots seo","robots user agent","url robots txt","robots txt wordpress seo yoast","yoast seo robots","google search console robots","robots txt generator google free","robots google search console","robots googlebot","googlebot robots","opencart robots"
No hay comentarios.