En la sesión de preguntas y respuestas para webmasters más reciente de Google, titulada Horas de oficina de Google SEO en inglés a partir del 13 de agosto de 2021, una de las numerosas preguntas enviadas fue: “El 20% de mis páginas no se indexan. Dice que son descubiertos, pero no rastreados. ¿Tiene esto algo que ver con el hecho de que no se rastrea debido a la posible sobrecarga de mi servidor o tiene que ver con la calidad de mi página?”
NOTA: Debo señalar aquí que la redacción anterior se indica con mayor precisión como la “calidad de mi sitio” en lugar de la “calidad de mi página”.
Verás por qué a continuación.
John Mueller, quien es un defensor de las búsquedas de Google, respondió: “Probablemente … un poco de ambos”.
Entonces, usemos esos dos como criterios para explorar.
Uno: el lado del servidor y el presupuesto de rastreo. Si tiene un sitio grande, es posible que desee considerar esto
Primero, permítanme tratar de cuantificar el tamaño de lo que puede considerarse un sitio grande: en las decenas de miles (al menos 10K) páginas. Por lo tanto, si su sitio no está cerca de eso, no me preocuparía demasiado por este criterio.
Las únicas excepciones pueden ser si agregaste una gran cantidad de páginas en poco tiempo o si has realizado una serie de redirecciones.
Mueller continuó mencionando algo llamado presupuesto de rastreo.
El presupuesto de rastreo es básicamente lo que parece: Googlebot solo rastreará un cierto número de páginas de un sitio dentro de un período de tiempo determinado. (Como nota al margen, recuerdo que Mueller dijo que Google no indexa el 100% de un sitio. Por supuesto, probablemente estaba hablando de sitios grandes).
Este límite está ahí para ayudar a minimizar la carga en los servidores de su sitio.
Por supuesto, puede ver cómo esto podría no aplicarse a un sitio pequeño: los servidores web de hoy en día son, en promedio, bastante capaces. Es por eso que rastrear cada página de un sitio pequeño puede no poner demasiada carga en un servidor.
Con todo esto dicho, los servidores de hoy en día son bastante capaces, por lo que tal vez el problema tenga que ver con los siguientes criterios …
Dos: Calidad in situ: “Eso es algo que tenemos muy en cuenta”
Recordarás que anteriormente, hice una distinción entre página y sitio. Menciono esto porque Mueller dijo que Google tiene en cuenta la calidad de un sitio con bastante fuerza. Si Google mira su sitio como un todo (las diversas páginas en su índice) y evalúa que su sitio no es de alta calidad, es posible que descubra que las páginas adicionales (o algunas páginas) no están indexadas, aunque hayan sido descubiertas.
Sé que esto trae a colación un poco una situación de gallina y huevo, porque ¿qué pasa si sus páginas que no están indexadas son más nuevas y de alta calidad?
Eso implicaría que tendría que volver a las páginas originales que están en el índice de Google, que conforman la impresión de Google de su sitio, mejorar la calidad de cada una de esas páginas (o un número lo suficientemente significativo de ellas) y esperar a que se vuelva a indexar.
Mientras estamos en el tema de la indexación…
Me acuerdo de algo que vi en uno de los canales de Twitter de Google:
Es básicamente un enlace a un informe de cobertura del índice, cuyo soporte se puso a disposición recientemente.
Entonces, en conclusión, si tiene problemas con la indexación, busque la calidad de su sitio. También agregaría robots de doble verificación.txt para asegurarme de que Google pueda rastrear esas páginas.