Lors de la dernière session de questions-réponses pour webmasters de Google, intitulée “English Google SEO office-hours from August 13, 2021”, l’une des nombreuses questions soumises était la suivante : “20 % de mes pages ne sont pas indexées. Il est indiqué qu’elles sont découvertes, mais pas explorées. Cela a-t-il un rapport avec le fait qu’elles ne sont pas explorées en raison d’une surcharge potentielle de mon serveur ou cela a-t-il un rapport avec la qualité de ma page ?”
REMARQUE : Je tiens à préciser que la formulation ci-dessus est plus exacte que celle de “qualité de mon site” et non de “qualité de ma page”.
Vous verrez pourquoi ci-dessous.
John Mueller, qui est un défenseur de la recherche pour Google, a répondu : “Probablement… un peu des deux”.
Utilisons donc ces deux-là comme critères à explorer.
Un : le budget côté serveur et crawl. Si vous avez un grand site, vous devriez peut-être considérer cette option.
Tout d’abord, laissez-moi essayer de quantifier la taille de ce qui peut être considéré comme un grand site : des dizaines de milliers de pages (au moins 10 000). Donc, si votre site est loin d’atteindre cette taille, je ne m’inquiéterais pas trop de ce critère.
Les seules exceptions pourraient être si vous avez ajouté un grand nombre de pages en peu de temps, ou si vous avez effectué un certain nombre de redirections.
M. Mueller a ensuite mentionné ce qu’on appelle le budget de crawl.
Le budget d’exploration est essentiellement ce qu’il semble être : Googlebot n’explorera qu’un certain nombre de pages d’un site au cours d’une période donnée. (Soit dit en passant, je me souviens que Mueller a dit que Google n’indexait pas 100 % d’un site. Bien sûr, il parlait probablement de sites de grande taille).
Cette limite est là pour aider à minimiser la charge sur le(s) serveur(s) de votre site.
Bien entendu, vous pouvez comprendre que cela ne s’applique pas à un petit site : les serveurs Web d’aujourd’hui sont, en moyenne, assez performants. C’est pourquoi l’exploration de chaque page d’un petit site peut ne pas représenter une charge trop importante pour un serveur.
Cela dit, les serveurs d’aujourd’hui sont assez performants, alors peut-être que le problème est lié au critère suivant…
Deux : la qualité du site : “C’est quelque chose que nous prenons en compte assez fortement”
Vous vous souviendrez que plus haut, j’ai fait une distinction entre page et site. Je le mentionne parce que Mueller a déclaré que Google prend en compte la qualité d’un site de manière assez forte. Si Google examine votre site dans son ensemble (les différentes pages de son index) et estime que votre site n’est pas de grande qualité, vous pouvez constater que des pages supplémentaires (ou certaines pages) ne sont pas indexées, même si elles ont été découvertes.
Je sais que c’est un peu le problème de la poule et de l’œuf, car que se passe-t-il si vos pages qui ne sont pas indexées sont plus récentes et de haute qualité ?
Cela signifierait que vous devriez revenir aux pages originales qui sont dans l’index de Google, qui constituent l’impression de votre site par Google, améliorer la qualité de chacune de ces pages (ou d’un nombre suffisamment important d’entre elles) et attendre la réindexation.
Pendant que nous sommes sur le sujet de l’indexation…
Je me souviens de quelque chose que j’ai vu sur l’un des canaux Twitter de Google :
Il s’agit essentiellement d’un lien vers un rapport de couverture d’index, dont le support a été récemment mis à disposition.
En conclusion, si vous avez des problèmes d’indexation, vérifiez la qualité de votre site. J’ajouterais également qu’il faut vérifier deux fois le fichier robots.txt pour s’assurer que Google est autorisé à explorer ces pages.
Source : Chaîne YouTube Google Search Central