Avant d’aborder ce sujet, je pense qu’il faut faire une distinction : il y a une différence entre crawling et indexation. Une page qui est explorée n’est pas nécessairement indexée. En d’autres termes, Google peut venir sur une page Web et l’explorer, mais cette page Web n’est pas forcément indexée dans les résultats de recherche de Google.
Toutes les pages indexées ont été explorées.
Sur ce, nous allons nous plonger dans le vif du sujet.
Google organise régulièrement des sessions de questions-réponses où un représentant de Google, généralement John Mueller (Search Advocate). John répond aux questions que les webmasters, les propriétaires d’entreprises et les professionnels du référencement peuvent se poser sur la recherche Google et les performances des sites Web.
“Cela fait plus d’un mois que j’attends que mes pages soient explorées. J’ai essayé d’améliorer l’ensemble de mes pages en dehors de ces pages non explorées. Quel serait votre conseil pour améliorer le crawling sur un site web ?”
Budget d’exploration
John répond : “C’est vraiment difficile à dire sans connaître le site lui-même. En général, c’est quelque chose qui tombe à peu près dans la catégorie du budget de crawl.”
Le budget de crawl repose sur l’idée que le nombre de pages sur Internet est pratiquement illimité, à tel point que Google ne peut pas toutes les indexer.
Google doit donc limiter ce qu’il explore et, pour chaque site Web, en particulier les sites de grande taille (plus de 1 000 000 de pages, par exemple), il se peut que Google n’explore pas autant de pages que le propriétaire du site le souhaiterait.
L’article intitulé “What Crawl Budget Means for Googlebot” et le guide “Large Site Owner’s Guide to Managing Your Crawl Budget” sont deux ressources que vous pouvez consulter pour en savoir plus sur le budget d’exploration.
Capacité de crawl : Une partie du budget de crawl
En ce qui concerne les aspects du budget de crawl, John a poursuivi : “…essentiellement, il y a deux côtés qui sont toujours en jeu. D’une part, [il y a] la capacité d’exploration, c’est-à-dire combien Google peut explorer. S’il s’agit d’un tout petit site Web, nous pouvons probablement tout explorer.”
La demande de crawl : La deuxième partie du budget d’exploration
À propos de la demande d’exploration, John a déclaré : “… et puis il y a la demande d’exploration : combien Google veut-il explorer, et la demande d’exploration est quelque chose pour laquelle vous pouvez nous aider. [Vous pouvez utiliser des éléments tels que les liens internes pour nous indiquer l’importance relative de vos pages.”
En outre, Google a un moyen de déterminer quelles pages de votre site sont les plus importantes. À ce sujet, John a déclaré que c’est “quelque chose que nous pouvons acquérir au fil du temps en reconnaissant, ‘Il y a beaucoup de contenu vraiment bon et important ici, donc nous devrions peut-être investir plus de temps et plus d’exploration ici'”.
Peut-on créer trop de pages ?
John a soulevé un point intéressant : “Si vous regardez un tas de pages que vous avez créées et qu’elles ne sont pas indexées, mon intuition est que vous créez peut-être trop de pages, et que vous devriez vous concentrer sur moins de pages et vous assurer qu’elles sont meilleures d’abord, puis à un moment donné, quand vous vous rendez compte que les pages que vous créez… sont en fait indexées assez rapidement, alors allez-y et créez plus de pages. Donc, dans un premier temps, améliorez la qualité, puis, dans un deuxième temps, développez votre site Web étape par étape.”
Une autre chose à garder à l’esprit
C’est évident, mais on peut facilement l’oublier : assurez-vous que vous avez autorisé les robots de recherche à explorer votre page.
Dans WordPress, avec certains plugins, il existe une option permettant de ne pas autoriser les robots à explorer les pages/postes individuels. Cette option peut être utile lorsque l’on rédige un article, de sorte que si l’article est publié avant d’être prêt, il ne sera pas exploré.
Cependant, je suis sûr que certains ont déjà commis cette erreur : leur article est parfait, prêt à être publié, et ils cliquent sur Publier. Mais… ils ont oublié de décocher la case qui interdit les robots de recherche, de sorte que si Google arrive sur cette page, elle ne sera ni explorée ni indexée.
En conclusion, si vous constatez que vos pages ne sont pas explorées, concentrez-vous sur un contenu de qualité, utilisez les liens internes pour renvoyer vers vos pages importantes (qui n’ont pas été explorées) et assurez-vous qu’il n’y a pas d’obstacles techniques sur le chemin de Googlebot (comme un noindex).
Source : Chaîne YouTube Google Search Central