Antes de entrar en este tema, creo que debería hacer una distinción: hay una diferencia entre gatear e indexar. Es posible que una página rastreada no esté necesariamente indexada. Es decir, Google puede llegar a una página web y rastrearla, pero esa página web puede no estar indexada en los resultados de búsqueda de Google.
Se han rastreado todas las páginas indexadas.
Con eso, vamos a sumergirnos.
Google realiza rutinariamente sesiones de preguntas y respuestas donde un representante de Google, generalmente John Mueller (Defensor de la Búsqueda). John responde a las preguntas que los webmasters, los propietarios de negocios y los profesionales de SEO pueden tener relacionadas con la búsqueda de Google y el rendimiento del sitio web.
“He estado esperando que mis páginas sean rastreadas durante más de un mes. He intentado mejorar mis páginas generales fuera de esas páginas no rastreadas. ¿Cuál sería su consejo para mejorar el rastreo en un sitio web?”
Presupuesto de rastreo
John respondió: “Es realmente difícil decirlo sin conocer el sitio web en sí. Por lo general, esto es algo que cae aproximadamente en la categoría de presupuesto de rastreo”.
El presupuesto de rastreo se basa en la idea de que el número de páginas en Internet es prácticamente ilimitado, un número tan grande que Google no puede indexarlas todas.
Por lo tanto, Google tiene que limitar lo que rastrea, y para cada sitio web, particularmente sitios web grandes (por ejemplo, más de 1,000,000 de páginas), Google podría no rastrear tantas páginas como el propietario del sitio web preferiría.
El artículo, What Crawl Budget Means for Googlebot, y la guía, Large Site Owner’s Guide to Managing Your Crawl Budget, son 2 recursos a los que puedes consultar para obtener más información sobre el presupuesto de rastreo.
Capacidad de rastreo: una parte del presupuesto de rastreo
Entrando en aspectos del presupuesto de rastreo, John continuó, “… esencialmente, hay dos lados que siempre están en juego allí. Por un lado, [está] la capacidad de rastreo, como cuánto puede rastrear Google. Si este es un sitio web muy pequeño, entonces probablemente, podemos rastrear todo”.
Demanda de rastreo: la segunda parte del presupuesto de rastreo
Sobre la demanda de rastreo, John dijo: “… y luego hay una demanda de rastreo: cuánto quiere rastrear Google, y la demanda de rastreo es algo con lo que puede ayudarnos. [Puedes usar] cosas como enlaces internos para informarnos sobre tu importancia relativa de las páginas”.
Además, Google tiene una forma de determinar qué páginas de su sitio pueden ser las más importantes. Sobre esto, John dijo que es “algo que podemos recoger con el tiempo al reconocer: ‘Bueno, hay mucho contenido realmente bueno e importante aquí, por lo que tal vez deberíamos invertir más tiempo y más rastreo aquí'”.
¿Puedes estar creando demasiadas páginas?
John mencionó algo que fue interesante: “Si estás mirando un montón de páginas que has creado y simplemente no están siendo indexadas, mi corazonada es que tal vez estás creando demasiadas páginas, y deberías centrarte en menos páginas y asegurarte de que sean mejores primero, y luego en algún momento, cuando te des cuenta de que las páginas que creas … en realidad, indexarse con bastante rapidez, luego salir y crear más páginas. Así que primero, mejore la calidad y luego, como segundo paso, salga y haga crecer su sitio web paso a paso”.
Otra cosa a tener en cuenta
Es obvio, pero puede pasarse por alto fácilmente: asegúrese de haber permitido que los robots de búsqueda rastreen su página.
En WordPress, con algunos complementos, hay una opción para no permitir que los bots rastreen páginas / publicaciones individuales. Esta opción puede ser buena mientras uno está redactando una publicación, de modo que si de alguna manera, la publicación se publica antes de que esté lista, no se rastree.
Sin embargo, estoy seguro de que algunos han cometido este error: su publicación se ve muy bien, está lista para funcionar y hacen clic en Publicar. Pero… se han olvidado de desmarcar la casilla que no permite los robots de búsqueda, por lo que si Google llega a esa página, no la rastreará ni la indexará.
En conclusión, si encuentra que sus páginas no están siendo rastreadas, concéntrese en contenido de calidad, use enlaces internos para vincular a sus páginas importantes (que no se han rastreado) y asegúrese de que no haya obstáculos técnicos en el camino de Googlebot (como un noindex).