Breaking News

Robots.txt Influye en Seo

Robots.txt y su influencia en las estrategias SEO

Robots.txt es un archivo en su sitio web que le dice a los rastreadores, es decir, a los robots de los motores de búsqueda, qué páginas puede leer e indexar para mostrarlas en los resultados de búsqueda de los motores de búsqueda (como Google). 

Hoy hablaremos sobre robots.txt, para qué sirve, por qué es tan importante, cómo se ve la sintaxis de robots.txt, cómo crear (y probar) robots.txt, entre otros temas.

Robots.txt es un gran aliado para el SEO de tu sitio web, ayudando a indexar correctamente el contenido de forma optimizada. Entérate de todo a continuación.

Robots.txt


¿Qué es robots.txt?

Es un archivo que se guarda en la carpeta raíz de un sitio y le dice a los robots de búsqueda (como Google, Bing, entre otros) qué páginas deben o no indexarse ​​en la base de datos de los motores de búsqueda.

En este caso, robots.txt utiliza un conjunto de comandos, denominado Protocolo de Exclusión de Robots, que se aplica a los robots de búsqueda para que sepan a qué páginas no deben acceder.

El archivo, guardado en la carpeta raíz del sitio, es fácil de acceder, simplemente escribiendo la dirección del sitio en un navegador, seguido del nombre de archivo “/robots.txt”.

¿Para qué sirve el archivo robots.txt?

En definitiva, robots.txt sirve para ordenar lo que pueden y no pueden ver los robots de búsqueda. Entienda mejor, a continuación, el concepto de algunas funciones específicas.

Controlar el acceso a determinadas páginas web

Un sitio web está formado por páginas web, y robots.txt, además de prohibir que los robots de búsqueda como Googlebot, accedan a determinadas páginas (que pueden contener datos restringidos o información irrelevante para tu estrategia), también ayuda a evitar la sobrecarga de acceso. por robots de búsqueda en el servidor que aloja el sitio.

Importante: aunque los robots de búsqueda no puedan acceder a determinadas páginas, nada impedirá que el usuario lo haga si dispone del enlace de acceso directo.

Controlar el acceso a ciertas imágenes

Robots.txt, además de restringir el acceso del robot a ciertas páginas, también evita que los archivos de imagen de su sitio web aparezcan en los resultados de búsqueda.

Esto es muy efectivo si existe la necesidad de mantener la información segura y con restricciones de acceso.

También puede ayudar como estrategia, ya que el usuario se verá obligado a ingresar a la página para ver la imagen, lo que suele ser interesante para algunas empresas.

Bloquear el acceso a los archivos de recursos

Además de restringir el acceso a páginas e imágenes, robots.txt también bloquea el acceso a archivos o scripts menos importantes, lo que ayuda a salvar servidores.

Incluso en el caso de archivos menores, se debe tener cuidado al usar esta función de robots.txt, especialmente cuando se trata de archivos que son esenciales para la carga de la página, ya que, al dificultar el trabajo de los robots rastreadores, como el rastreador, la página en su conjunto puede resultar dañada.

Cómo evitar la indexación de ciertas páginas del sitio

Como se ha dicho, se puede utilizar robots.txt para impedir el acceso y, en consecuencia, la indexación de determinadas páginas o archivos de un sitio web.

En este caso, un ejemplo sencillo de robots.txt que puede impedir la indexación del sitio en su conjunto por parte de los motores de búsqueda sería:

  • Agente de usuario: *
  • No permitir: /
  • Un ejemplo que serviría para evitar la indexación de una carpeta en particular podría ser:
  • Agente de usuario: *
  • No permitir: /cgi-bin/ 


Ejemplo de una página que generalmente se evita indexar

¿Por qué es importante robots.txt?

Entre las principales razones que hacen que robots.txt sea importante, se pueden destacar:

Evite rastrear algunas páginas

Es normal que un sitio tenga páginas para uso interno, un área de inicio de sesión o una página aún en desarrollo.

Todos estos lugares a menudo usan robots.txt para evitar el seguimiento de robots. 

Además de las propias páginas, se puede restringir el acceso a archivos, imágenes e incluso recursos.

Para quienes invierten en SEO, es una gran herramienta, ya que la idea es atraer potenciales leads a una página específica, como una landing page, y no al material final, por ejemplo.

Indique sus mapas de sitio

Esta es una función considerada muy simple, pero ayuda a los motores de búsqueda, como Google y Bing, a encontrar sus mapas de sitio y, de esta manera, comprender mejor la organización de su sitio.

El tiempo de seguimiento de los robots en su sitio es limitado

Es importante saber que Google ya se posicionó en el “Crawl Budget”, su límite de rastreo.

Para aquellos que no saben, en la práctica, esto significa que, al no usar robots.txt para decirle a Google qué páginas no debe rastrear, puede perder mucho más tiempo rastreando páginas que no importan y fallando en el rastreo. los que desee aparecen en los resultados de búsqueda.

Si el rastreador de Google tiene problemas para rastrear e indexar el sitio, el problema puede ser el límite impuesto por el presupuesto de rastreo. 

En ese sentido, restringir el rastreo a ciertas páginas soluciona el problema.

sintaxis de robots.txt

Robots.txt tiene como objetivo crear un protocolo de acceso para robots de búsqueda. 

Para poder ejecutar completamente esta designación, existen expresiones específicas, es decir, expresiones con el objetivo de pasar un comando que permite, o no, acceder a determinados lugares o páginas. 

Los comandos principales dentro de la sintaxis de robots.txt son:

agente de usuario

Es posible aplicar pautas específicas para cada tipo de robot de búsqueda presente en la red. 

Para hacer esto, debe usar el comando User-agent y determinar el robot al que se refiere.

El principal robot de búsqueda de Google, por ejemplo, es Googlebot. Sabiendo esto, para darle una orden, necesitas usar el siguiente comando: 

  • Agente de usuario: robot de Google
  • Es decir, basta con indicar el nombre del User-agent.
  • No permitir y Permitir

rechazar

El comando se refiere a los lugares y páginas que no deben indexarse ​​en los motores de búsqueda. 

Ejemplos podrían ser: Robots.txt

Disallow: /prod/ – guía a los robots de búsqueda para que no indexen el contenido dentro de la carpeta “prod”;

Disallow: print1.html: indica a los motores de búsqueda que no indexen el contenido de la página print1.html.

permitir

El comando Permitir, por otro lado, guía a los robots en relación a las páginas y otros lugares que pueden indexar sus contenidos, es decir, las páginas que estarán permitidas.

Es importante tener en cuenta que el comando solo debe usarse en situaciones en las que el acceso a una ubicación fue bloqueado por un comando Disallow, pero la intención era haber indexado un archivo dentro de la página bloqueada.

Permitir permite indexar el directorio de la siguiente manera:

Permitir: /catálogos/sobre

Otro ejemplo: si necesita bloquear una carpeta ('archivos'), pero mantener el acceso a los directorios ('proyectos'), el comando sería:

No permitir: /archivos/

Permitir: /archivos/proyectos/

mapa del sitio

Otro comando muy importante de robots.txt es la indicación del sitemap del sitio, archivo muy útil para ayudar a los robots rastreadores a localizar todas las páginas existentes.

Aunque es muy usable, el comando sitemap ha caído en desuso, y esto se debe a Google Webmaster Tools, una herramienta que te permite identificar la ubicación de tu archivo sitemap de una forma más práctica.

Ejemplo:

mapa del sitio: https://www.conversion.com.br/sitemap_index.xml

Cómo crear y probar su archivo robots.txt

Es posible crear un archivo robots.txt utilizando un editor de texto simple, y solo eso, según sus preferencias.

Después de conocer bien la sintaxis de un archivo robots.txt, comience por configurar el User-agent, para que pueda ser aplicado a todos los robots de búsqueda, para eso, coloque un asterisco después del término;

El siguiente paso es escribir "Deshabilitar" (y nada más);

Dado que no habrá nada después de "No permitir", los robots de búsqueda rastrearán todo el sitio (sin obstáculos).

Este tutorial puede considerarse lo básico de robots.txt. 

Recordando que también se puede adaptar según técnicas SEO para optimizar la indexación de tus páginas.

como probar

Es fundamental probar el archivo robots.txt para asegurarse de que todo funciona correctamente. 

Hoy, Google tiene una herramienta de prueba gratuita dentro de la plataforma Search Console.

De esta manera, debe acceder a la herramienta de prueba de robots.txt , seleccionar el sitio asociado con la cuenta de Google Search Console que desea probar y luego hacer clic en "Probar".

Esta herramienta te permite probar la dirección de diferentes páginas y archivos para validar si Googlebot tendrá o no acceso a ellos.

Si después de la prueba ves la información “Permitido”, es señal de que robots.txt puede acceder a la URL indicada. 

Si ve la información “Bloqueado”, la herramienta le indicará qué regla está bloqueando la lectura de la URL indicada. 

Importante: Cargue siempre robots.txt en la raíz de su sitio.

Ejemplo de herramienta de prueba de Google Search Consol robots.txt y

Conclusión

Robots.txt , cuando se configura de la mejor manera posible, puede generar más resultados para su SEO y mejorar la experiencia del usuario.

Cuando los robots de búsqueda lleguen a su sitio, sabrán qué archivos indexar, lo que significa una mejor vista de su sitio para quienes realizan una búsqueda.

Al usar robots.txt correctamente, es posible hacer que su sitio sea más visible y mejorar la experiencia del usuario, creando un círculo virtuoso en el que robots.txt asegura que el flujo se dirija a lugares que brindan mayores oportunidades de conversión.

Agencia Seo en Lima; Respondemos a toda las preguntas que usted tenga sobre La Importancia del Seo, tal solo escribiendo a Contacto 

"robots txt","googlebot robots txt","robots seo","robots user agent","url robots txt","robots txt wordpress seo yoast","yoast seo robots","google search console robots","robots txt generator google free","robots google search console","robots googlebot","googlebot robots","opencart robots"

No hay comentarios.