Gestión de crisis y recuperación en actualizaciones de software

Share
Por: Francisco Robayo, Head of Engineering Latin America, Check Point.

Cuando una actualización de software provoca una interrupción en las operaciones de una organización, es importante seguir un protocolo adecuado para minimizar los daños y restaurar los servicios lo antes posible. Cada organización puede tener su propio protocolo específico basado en mejores prácticas y estándares como ITIL, adaptando estos principios a sus necesidades particulares para asegurar una recuperación rápida y eficiente ante cualquier interrupción causada por actualizaciones de software.

El reciente incidente de CrowdStrike ilustra perfectamente la importancia de estar preparados y tener un plan robusto.

Se pueden considerar algunas acciones como identificar y documentar el problema, registrando detalles como la hora, la descripción del error y los sistemas afectados. Este proceso ayuda a entender rápidamente el alcance del problema y coordinar una respuesta. Durante la revisión, se debe determinar si la interrupción afecta a toda la organización o solo a un departamento específico, así como el impacto en las operaciones.

La comunicación es vital para informar a los usuarios y a las partes interesadas sobre la situación actual y proporcionar actualizaciones periódicas sobre los esfuerzos de resolución y los tiempos estimados para la restauración del servicio. El análisis de la causa raíz del problema nos proporciona los insumos necesarios para conocer si la actualización fue la única causa o si hubo otros factores involucrados. Una revisión posterior al incidente permite aprender de la experiencia e identificar oportunidades de mejora en los procesos, lo que proporciona mayores certezas ante eventos futuros.

Cuando una organización enfrenta problemas durante el proceso de actualización, los proveedores de soluciones están en capacidad de aplicar un proceso estructurado de gestión de incidentes, proporcionar soporte técnico y asistencia con software, hardware, redes, seguridad y otros componentes de TI. Incluso pueden ofrecer Managed Services, adaptando las soluciones a las necesidades específicas de la organización.

Tiempos estimados de recuperación

Un fallo de actualización de sistemas puede tener diversas consecuencias para una organización. Si los procesos de respaldo no se han realizado correctamente antes de la actualización, puede suceder que los datos se pierdan o corrompan. Para ello, se debe considerar un RPO (Recovery Point Objective) en la planificación de la recuperación de desastres y la continuidad del negocio. Este punto objetivo de recuperación establece el límite de tiempo dentro del cual los datos deben restaurarse después de una incidente post actualización. Por lo general, se mide en horas o días y determina la cantidad máxima de datos que una empresa está dispuesta a perder entre las copias de seguridad.

Cada empresa personaliza este RPO según su actividad. En un sistema bancario con transacciones continuas, un RPO de 24 horas no sería adecuado debido a los cambios frecuentes, mientras que en un retail minorista cuyos datos son mayoritariamente estáticos, un RPO de 24 horas podría ser suficiente. El RPO ayuda a determinar con qué frecuencia se deben hacer copias de seguridad. Aunque no garantiza la restauración exacta a la hora antes del incidente, permite un plan concreto para recuperar datos de manera eficiente.

Planes vigentes y activos de continuidad

Los planes de continuidad del negocio y recuperación ante desastres son estrategias necesarias para identificar fallas, preparar al personal, asegurar la recuperación de datos, evaluar la comunicación y fomentar una mejora continua. Para evitar sorpresas al momento de aplicar estos planes, realizar pruebas regulares permite que la organización esté mejor preparada para mantener sus operaciones en medio de cualquier crisis. Es fundamental utilizar un formato claro y estructurado, asegurar que el personal comprenda la documentación del Plan de Continuidad y los documentos relacionados con el tipo de prueba. En cada tipo de prueba, es necesario documentar los procedimientos específicos, incluyendo los objetivos y las responsabilidades de cada miembro del equipo.

Además, se debe definir el día, la hora de inicio y la ventana de tiempo requerida para la prueba, así como las métricas para evaluar los resultados de la misma. Finalmente, una vez completada la prueba, se deben obtener conclusiones sobre las correcciones necesarias en el Plan de Continuidad, las mejoras en la claridad de la información y los elementos de riesgo detectados durante la prueba.

La comunicación frente a un fallo en actualizaciones de software

Cuando una organización enfrenta un fallo en la actualización de software, la estrategia de comunicación debe minimizar el impacto reputacional y operativo, pero sobre todo que no alerte a posibles ciberatacantes que puedan aprovechar la situación.

La gestión de comunicación interna debe realizarse a través de canales seguros, como el correo electrónico corporativo o plataformas de mensajería internas cifradas. Al informar a los colaboradores sobre el fallo no es preciso entrar en detalles técnicos específicos porque pueden ser utilizados por actores malintencionados o confundir y generar escaza comprensión. Lo importante es que el personal esté al tanto de la situación y sepa cómo proceder.

De otro lado, está la comunicación externa hacia los clientes con los cuales se debe utilizar los canales oficiales como el sitio web de la empresa o sus redes sociales. En estos mensajes, se debe evitar revelar detalles técnicos o vulnerabilidades específicas para no dar pistas a posibles ciberatacantes. Mantener la información técnica confidencial ayuda a blindar a la organización frente a amenazas externas, al mismo tiempo que se mantiene la transparencia con los clientes.

La comunicación durante un fallo en la actualización del software debe ser clara, concisa y sin alarmismo. Utilizar canales seguros para la comunicación interna, mantener la confidencialidad de los detalles técnicos en las comunicaciones externas, proporcionar actualizaciones periódicas, gestionar las disculpas de manera adecuada y coordinar estrechamente con el equipo de ciberseguridad son pasos críticos. Estas medidas ayudan a proteger a la organización de posibles ciberataques, a la vez que minimizan el impacto reputacional y operativo del incidente.