“¿Cómo maneja Googlebot las trampas de rastreo web?” Google responde

Las trampas de rastreo web, como la expansión infinita de páginas, pueden ser problemáticas. Así es como Googlebot los maneja.
SIA Team
November 25, 2021

Si te gusta el lado tecnológico de las cosas, probablemente te hayas preguntado cómo Googlebot resuelve los problemas y, específicamente, las trampas de rastreo web.

Por ejemplo, supongamos que Googlebot encuentra algún tipo de bucle sin fin, o una página que puede expandirse para siempre (como una página de calendario donde puede hacer clic para cargar el próximo mes … y la siguiente… y la siguiente… y así sucesivamente).

A las ~ 46:06 del horario de oficina de Google SEO en inglés a partir del 19 de noviembre de 2021 (video en cola a continuación), John Mueller abordó una pregunta relacionada con esto.

La pregunta decía:

“Ocasionalmente, al rastrear un sitio web, me encuentro con una trampa de araña, expandiendo infinitamente las URL.

“Y me he estado preguntando cómo Googlebot maneja tales situaciones. ¿Ignora de alguna manera esas URL para centrarse en el resto de las URL normales en el sitio o Googlebot se atasca de alguna manera y pierde las URL de rastreo como resultado?”

Explicación de John sobre cómo Googlebot maneja las trampas de rastreo web

Juan respondió:

“Sí, esa es una pregunta complicada.

“Y es algo que a veces causa problemas. En su mayor parte, creo que terminamos descubriendo esto, porque lo que sucede es una especie de área de trampa de arañas, que es algo, por ejemplo, tal vez tengas un calendario infinito, donde puedes desplazarte hasta marzo de 3000, o algo así, y esencialmente puedes seguir haciendo clic hasta el día siguiente, y al día siguiente, y siempre tendrá una página de calendario para ti.

“Eso es algo así como un tipo de espacio infinito. En su mayor parte, debido a que nos arrastramos incrementalmente, comenzaremos y saldremos y encontraremos … No sé… tal vez 10 o 20 de estas páginas”.

Ese es un buen punto: que Googlebot rastrea de forma incremental. No se zambulle de cabeza.

Esto le da la oportunidad de sumergir los dedos de los pies en el agua, por así decirlo.

Juan continuó:

“Y luego diremos: ‘Bueno, no hay mucho contenido aquí, pero tal vez si miramos un poco más profundo y nos vamos y rastreamos tal vez cien de esas páginas …’.

“Y comenzamos a decir: ‘Bueno, todo este contenido esencialmente se ve igual, y todos están vinculados desde esta larga cadena en la que tienes que hacer clic en Siguiente, Siguiente, Siguiente, Siguiente para llegar a esa página.

“En algún momento, nuestros sistemas van a decir: ‘Bueno, no hay mucho valor en rastrear aún más profundo aquí, porque encontramos mucho del resto del sitio web que tiene señales realmente fuertes que nos dicen que esto es realmente importante.

“Y encontramos esta cadena larga realmente extraña aquí.

“Entonces, en general, diremos: ‘Bueno, estos probablemente no sean tan importantes. No tenemos que arrastrarlos tan a menudo, si es que lo hacemos, si queremos conservarlos”.

“Y más bien, nos centramos en el resto del sitio”.

Entonces, ahí lo tienes: Googlebot está programado con un proceso por el cual eventualmente concluirá que está en una trampa de rastreo web, y luego cesará ese proceso.

Fuente: Canal de YouTube de Google Search Central