Lors de la dernière session de questions-réponses de Google, intitulée “English Google SEO office-hours from August 13, 2021”, John Mueller, de Google, a répondu à un certain nombre de questions, posées à la fois par des participants en personne et par des personnes qui avaient déjà soumis les leurs.
À la marque ~32:41, une question soumise demandait essentiellement, “Qu’est-ce qui est mieux : les 404 ou les redirections de la page d’accueil ?”
Laissez-moi vous donner quelques informations.
Apparemment, la personne qui a soumis cette question avait un site qui avait subi une attaque de logiciels malveillants. Leur question complète était :
“Quelle serait la meilleure stratégie : avoir une page 404 pour les pages qui n’existent pas, ou rediriger toute page inexistante vers la page d’accueil ? Notre site Web se remet d’une attaque de logiciels malveillants au cours de laquelle des dizaines de milliers de pages créées redirigeaient vers un site Web louche. Nous sommes en train de le réparer, mais maintenant nous avons probablement 150 000 pages avec des erreurs 404 dans Search Console.” (Les caractères gras sont de moi pour l’emphase, j’y reviendrai plus bas).
Wow.
Cela fait beaucoup de pages, un problème colossal, et beaucoup de choses à prendre en compte.
La réponse de Muller a été la suivante : “Dans une situation comme celle-là, je ne pense pas qu’il y ait une grande différence entre une page 404 et une redirection vers la page d’accueil.”
Il a poursuivi en disant qu’une redirection vers la page d’accueil serait considérée comme une page “soft 404” et serait traitée de la même manière qu’une page 404.
L’une des choses les plus importantes dont il faut être sûr
Après une brève pause, Mueller a également déclaré : “Ce que j’essaierais de faire dans un cas comme celui-ci, c’est de me concentrer sur les pages les plus importantes de votre site Web et de m’assurer qu’elles fonctionnent toutes très bien et qu’elles sont mises à jour dans les recherches…”
Les 404 sont probablement plus faciles que la redirection
M. Mueller poursuit : “…et tout le reste…probablement que 404 est l’approche la plus facile, car si vous supprimez ces pages, cela renvoie 404 par défaut.”
Si vous êtes un webmaster ou si vous vous y connaissez en matière de construction de pages Web, vous pouvez voir comment les simples 404 (en supprimant simplement les pages indésirables) sont plus faciles que les redirections (qui supposent que vous deviez aller manuellement (ou utiliser un logiciel) sur chaque page et les rediriger individuellement).
Mais attendez… qu’en est-il des pages qui existaient déjà ?
Plus haut, j’ai relaté que Mueller a dit qu’il se concentrerait sur ses pages les plus importantes et s’assurerait qu’elles fonctionnent. Et cela a du sens.
Mais, pour un site qui compte plus de 100 000 pages, cela peut représenter un travail considérable qui prendra du temps.
Que peut-on faire dans l’intervalle ?
Pages créées par rapport aux pages préexistantes
Plus haut, j’ai mentionné que j’ai mis en gras une partie de la question originale qui disait que “des pages ont été créées“.
J’en déduis que le malware a créé des pages sur le site qui n’existaient pas auparavant.
Cela semble être le cas, mais ma question est la suivante : qu’en est-il des pages préexistantes ? Ont-elles également été prises en charge par le malware et ont-elles été transformées en pages de malware ?
Idéalement, pour les pages qui existaient avant l’attaque du malware, vous voulez les remettre en état de marche, en commençant par vos pages les plus importantes.
Avant de poursuivre, je dois mentionner une hypothèse que j’ai faite : Je suppose (et oui, je sais qu’il ne faut pas supposer les choses) que ce site était encore assez important avant l’attaque du malware. Rien dans la question initiale n’implique explicitement que le chiffre de 150 000 correspond au nombre de pages existant avant ou après l’attaque.
Si le site ne comptait, disons, que 25 pages avant l’attaque et 150 000 après, il est certain qu’un message 404 sur les pages créées pourrait être la solution.
Mais disons que le site comptait des milliers ou des dizaines de milliers de pages avant l’attaque et qu’il avait un grand nombre de bonnes pages indexées… tellement qu’il serait difficile de toutes les reconstruire en peu de temps.
Dans ce cas, comme mesure temporaire, sur les pages (ou URL) préexistantes/avant l’attaque que je n’avais pas le temps de reconstruire ou qui n’étaient pas mes pages les plus importantes, je faisais simplement des redirections 301 vers la page d’accueil ou une page plus appropriée que je reconstruisais (comme une catégorie ou une page parent). (Bien que les redirections 301 soient définies comme permanentes, je pense que, pour le référencement, elles sont plus préférables que, disons, les redirections 302, mais le choix vous appartient).
Ainsi, à mon avis, la question des redirections 404 ou 302 n’est pas nécessairement une proposition qui s’applique à chaque page d’un site post-attaque. Pour les pages préexistantes qui doivent encore être reconstruites, les redirections peuvent être préférées. Pour les pages/URL qui ont été créées par le logiciel malveillant, une simple suppression de la page/URL ou des 404 peut être préférée.
“…Espérons que vous puissiez verrouiller les choses pour éviter ce genre de situation à l’avenir…”
C’est quelque chose que Mueller a dit dans la première partie de sa réponse.
Et ça m’a fait réfléchir…
Comment cela aurait-il pu être évité ?
La société d’hébergement avait-elle des sauvegardes de routine ?
Je peux comprendre que, pour un site dynamique de grande taille, la restauration à partir d’une sauvegarde ne soit pas aussi simple que pour un site plus petit et plus simple.
Je me demande quelles mesures de protection étaient en place, le cas échéant, avant l’attaque.
C’est pourquoi, si vous prévoyez ou avez un site important (ou un site de n’importe quelle taille, en fait), vous devez vous assurer qu’un certain type de mesures de protection et/ou de restauration est en place.
Je connais au moins une société d’hébergement qui effectue des sauvegardes quotidiennes et conserve chaque sauvegarde pendant quelque chose comme… 28 jours environ.
Ou bien, vous pouvez utiliser un logiciel ou un plugin pour faire des sauvegardes de votre site.
Si vous utilisez des sauvegardes, assurez-vous d’avoir bien répété le processus de récupération du site. Idéalement, sur un bac à sable ou une version d’entraînement (non vivante) de votre site, vous voulez vous entraîner à restaurer votre site à partir d’une sauvegarde, afin qu’en situation réelle, vous ne le fassiez pas pour la première fois dans une situation de panique.
Il existe probablement de nombreuses solutions, mais assurez-vous d’en utiliser une qui a fait ses preuves, car je ne peux qu’imaginer l’ampleur de l’entreprise que doit représenter la restauration d’un très grand site.
Cela me rappelle la règle des 80/20, ou principe de Pareto : dans ce contexte, 20 % de vos pages représentent 80 % des pages qui sont consultées. (Bien sûr, ce n’est peut-être pas exactement cela : cela pourrait être 10/90, 5/95, ou autre). Une petite partie de vos pages peut représenter la majorité des vues/visites.
Donc, concentrez-vous d’abord sur la restauration du plus grand nombre possible de ces pages, aussi vite que possible. De cette façon, la plupart de vos visiteurs ne remarqueront même pas les autres pages. Cela vous laissera le temps d’utiliser ce que vous avez appris dans cet article pour prendre des décisions sur ce que vous devez faire ensuite.
Source : Chaîne YouTube Google Search Central