Atlassian met en place une politique de “Soft-delete” et améliore les sauvegardes

Après l'incident du mois dernier, Atlassian est convaincu que ces mesures l'aideront à rétablir la confiance des consommateurs.
SIA Team
May 2, 2022

Le directeur technique sortant d’Atlassian, Sri Viswanath, a déclaré que l’entreprise allait mettre en œuvre une politique de “suppression douce” sur tous les systèmes. Il s’agit d’une des nombreuses mesures visant à éviter la répétition de la panne dévastatrice qui a entraîné l’arrêt de plusieurs services de cloud computing et dont la résolution a pris plus de deux semaines.

Selon M. Viswanath, la perturbation a été causée par un script de maintenance récent qui a entraîné la suppression rapide de 883 sites, représentant 775 clients. Les clients n’ont pas pu déposer de tickets de support comme d’habitude sur les sites effacés, et Atlassian n’a pas pu joindre rapidement les clients concernés, selon Viswanath.

Atlassian, d’autre part, a déclaré avoir pris un certain nombre de mesures rapides pour éviter des scénarios similaires à l’avenir après avoir évalué l’événement. Il s’agit notamment de bloquer la suppression des données et des métadonnées des clients qui ne sont pas supprimées par soft. Au lieu de cela, tous les nouveaux processus impliquant une suppression seront d’abord évalués sur les propres sites d’Atlassian afin de valider la technique, puis les clients seront progressivement soumis au même processus.

“La suppression d’un site entier devrait être interdite”, écrit Viswanath dans un billet de blog, “et la suppression douce devrait nécessiter des contrôles à plusieurs niveaux pour éviter les erreurs.”

“Nous allons mettre en œuvre une politique de suppression douce pour empêcher les scripts ou systèmes externes de supprimer les données des clients dans un environnement de production. Notre politique de suppression douce permettra une rétention suffisante des données afin que la récupération des données puisse être effectuée rapidement et en toute sécurité, et les données seront supprimées de l’environnement de production uniquement après l’expiration d’une période de rétention.”

Atlassian a ajouté que toute activité de suppression douce des données doit également avoir une procédure de retour en arrière validée.

Atlassian a également déclaré qu’elle allait accélérer sa méthodologie de reprise après sinistre afin que la restauration puisse être automatisée pour les événements de suppression multi-sites et multi-produits pour un groupe plus large de clients, et que le processus sera testé et mis à jour régulièrement pour réduire le temps de récupération.

Selon M. Viswanath, Atlassian réécrira également son approche de la gestion des incidents à grande échelle et exécutera un exercice de simulation, tout en renforçant la sauvegarde des contacts essentiels et en adaptant les outils de support afin que les clients ne disposant pas d’une URL de site valide ou d’un identifiant Atlassian puissent toujours contacter directement le support technique.

Atlassian a déclaré qu’elle allait investir dans un système d’escalade unifié, basé sur les comptes, et dans des flux de travail permettant de stocker plusieurs objets, tels que des tickets et des tâches, sous un seul objet de compte client, et qu’elle allait revoir le manuel de communication des incidents de l’entreprise et exécuter une fonction de gestion des escalades qui soit cohérente au niveau mondial dans toutes les zones géographiques pour les clients.

Le 5 avril, Atlassian a annoncé la panne sur sa page d’état. Il a fallu attendre le 18 avril pour que la société rétablisse le service pour tous les consommateurs concernés.