Atlassian implementa una política de “borrado suave” y mejora las copias de seguridad

Tras el incidente del mes pasado, Atlassian confía en que estas medidas le ayuden a recuperar la confianza de los consumidores.
SIA Team
May 2, 2022

El director de tecnología saliente de Atlassian, Sri Viswanath, ha dicho que la empresa aplicará una política de “borrado suave” en todos los sistemas como una de las numerosas medidas para evitar que se repita la devastadora interrupción que detuvo varios servicios en la nube y que tardó más de dos semanas en resolverse.

Según Viswanath, la interrupción fue causada por un reciente script de mantenimiento que provocó el rápido borrado de 883 sitios, que representan a 775 clientes. Los clientes no pudieron presentar tickets de soporte como de costumbre en los sitios borrados, y Atlassian no pudo llegar rápidamente a los clientes afectados, según Viswanath.

Atlassian, por su parte, afirmó haber tomado una serie de medidas rápidas para evitar escenarios similares en el futuro tras evaluar el suceso. Esto incluye el bloqueo del borrado de los datos y metadatos de los clientes que no sean de borrado suave. En su lugar, todos los nuevos procesos que impliquen el borrado serán evaluados primero en los propios sitios de Atlassian para validar la técnica, y luego los clientes serán trasladados progresivamente a través del mismo proceso.

“El borrado de todo un sitio debe ser desautorizado”, escribió Viswanath en una entrada del blog, “y el borrado suave debe requerir controles de varios niveles para evitar errores”.

“Implementaremos una política de borrado suave para evitar que scripts o sistemas externos borren los datos de los clientes en un entorno de producción. Nuestra política de borrado suave permitirá una retención de datos suficiente para que la recuperación de datos pueda realizarse de forma rápida y segura, y los datos se eliminarán del entorno de producción sólo después de que haya expirado un período de retención.”

Atlassian añadió que cualquier actividad que elimine datos de forma suave debe tener también un procedimiento de reversión validado.

Atlassian también declaró que acelerará su metodología de recuperación de desastres para que la restauración pueda ser automatizada para eventos de borrado de múltiples sitios y productos para un grupo más amplio de clientes, y que el proceso será probado y actualizado regularmente para reducir el tiempo de recuperación.

Según Viswanath, Atlassian también reescribirá su enfoque de gestión de incidentes a gran escala y ejecutará un ejercicio simulado, así como reforzará la copia de seguridad de los contactos esenciales y adaptará las herramientas de soporte para que los clientes que no tengan una URL de sitio válida o un ID de Atlassian puedan seguir contactando directamente con el soporte técnico.

Atlassian dijo que invertirá en un sistema unificado de escalamiento basado en cuentas y en flujos de trabajo que permitan almacenar múltiples objetos, como tickets y tareas, bajo un único objeto de cuenta de cliente, así como revisar el libro de jugadas de comunicación de incidentes de la compañía y ejecutar una función de gestión de escalamiento que sea globalmente consistente en todas las geografías para los clientes.

El 5 de abril, Atlassian anunció la interrupción en su página de estado. La empresa tardó hasta el 18 de abril en restablecer el servicio a todos los consumidores afectados.