Bien entendu, nous savons tous que pour être indexé dans le moteur de recherche Google (ce qui est un préalable au classement), votre site doit pouvoir être exploré par Googlebot.
Il existe quelques facteurs qui déterminent la probabilité que Googlebot explore un nombre suffisant de pages, et ces facteurs constituent ce que l’on appelle le budget d’exploration.
Lors des Google SEO Office-Hours en anglais du 22 octobre 2021, John Mueller, qui est Search Advocate chez Google, a répondu à une question sur le crawl.
Un participant a demandé à John (et je paraphrase) :
“Récemment, la demande de crawl sur le site de mon entreprise a chuté de près de plus de 90%. Nous avons vérifié tous les aspects conformément à la doc officielle de Google, comme le fichier robots.txt… et nous avons également [vérifié] d’autres facteurs techniques possibles qui [ont causé] une baisse soudaine des demandes d’exploration.
“Que nous recommandez-vous de vérifier également ?”
La vidéo ci-dessous est mise en file d’attente à la marque ~7:25, qui est le moment où cette question a été posée.
Demande de crawl et capacité de crawl
John a commencé sa réponse (que j’ai paraphrasée et nettoyée pour plus de clarté) :
” Donc… il me semble que… nos systèmes ont du mal à accéder à votre contenu assez rapidement, donc quand il s’agit du nombre de requêtes que nous faisons sur un site web, nous avons deux types de choses que nous équilibrons.
“D’une part, la demande d’exploration, c’est-à-dire le nombre de requêtes que nous souhaitons effectuer à partir d’un site web. Si le site est raisonnable, la demande d’exploration reste généralement assez stable. Elle peut augmenter si nous voyons beaucoup de nouveau contenu ; elle peut diminuer si nous voyons… très peu de contenu, mais généralement, ces changements sont très lents dans le temps.
“Et l’autre côté est la capacité de crawl. Il s’agit de la quantité de contenu que nous pensons que le serveur peut supporter sans causer de problèmes, et c’est quelque chose que nous évaluons quotidiennement, et nous pouvons réagir assez rapidement si nous pensons qu’il y a un problème critique sur le site Web.
“Donc, pour les problèmes critiques, nous pensons à des choses comme les erreurs de serveur. Si nous voyons beaucoup d’erreurs de serveur, si nous ne pouvons pas accéder au site correctement, si la vitesse du serveur diminue de manière significative (donc, pas le temps de rendre une page, mais le temps d’accéder directement aux fichiers HTML).
“Ce sont en quelque sorte les trois aspects qui entrent en ligne de compte et, si, par exemple, la vitesse diminue de manière significative, vous le verrez dans le rapport Cross Stats de Search Console…”
Et si Google pense qu’il contribue aux problèmes de votre site…
Pour être sûr, je ne pense pas que Googlebot puisse être à l’origine de ces problèmes sur votre site. Il se peut plutôt que l’origine du problème soit une limitation de votre site (comme votre serveur atteignant presque sa capacité), et que l’apparition de Googlebot l’ait poussé au-delà, entraînant un ralentissement.
Mais en gardant cela à l’esprit, John a dit, “Ouais et euh c’est quelque chose où… si nous pensons que nous causons des problèmes en crawlant trop, nous réduirons cela assez rapidement”.
(Je pense qu’il parle de réduire la fréquence d’exploration, ce qui est logique si votre serveur a du mal à répondre).
La personne qui a posé la question a ensuite confirmé :
“Oh, je vois. Donc le temps de réponse est très pertinent et il est très lié à la demande d’appel.”
John a répondu : “Exact. Oui, c’est exact.”
Erreurs 4XX (niveau 400) et 5XX (niveau 500)
Les questions-réponses se poursuivent. On a demandé à John : “Pensez-vous que les codes de réponse de niveau 400 et 500 peuvent réduire le taux d’exploration ?”
La réponse de John a été la suivante :
“Les erreurs de niveau 500, sans aucun doute. Ce sont des erreurs de serveur, que nous considérons comme potentiellement problématiques. Les erreurs de niveau 400 sont moins problématiques, car il s’agit essentiellement de contenu [qui] n’existe pas, ce qui nous permet de l’explorer normalement.
“Donc si une page disparaît, ce n’est pas un problème. Si elle a une erreur de serveur, c’est un problème.”
Ou, pour reformuler ma compréhension des réponses de John : Donc, s’il y a un problème de niveau 400, ce n’est pas un problème (en ce qui concerne le crawling). S’il y a un problème de niveau 500, c’est un problème (en ce qui concerne le crawling).
Quelques questions supplémentaires ont été posées, qui étaient essentiellement des questions qui allaient plus loin dans ce sujet. Vous pouvez les entendre dans la vidéo mentionnée ci-dessus.
Si vous souhaitez disposer d’une ressource supplémentaire, il existe un document Google intitulé Large Site Owner’s Guide to Managing Your Crawl Budget, qui contient une grande partie des informations clés sur lesquelles repose ce que vous lisez ici.
Source : Chaîne YouTube Google Search Central