Ruta y acciones frente al incidente de CrowdStrike

Share

El viernes 19 de julio de 2024, muchos sistemas mostraron una pantalla azul en sus monitores debido a una actualización de configuración de contenido lanzada por CrowdStrike para su sensor de Windows. Esta actualización, que formaba parte de sus operaciones regulares para mejorar la detección de nuevas amenazas, resultó en un fallo del sistema operativo Windows, afectando a los hosts que ejecutaban la versión 7.11 del sensor.

Ante esta situación, que causó temor y preocupación entre usuarios y clientes, Microsoft emitió un comunicado señalando que, aunque el incidente no fue causado por ellos, sí afectó a su ecosistema. Microsoft informó que mantuvo una comunicación continua con sus clientes, CrowdStrike y desarrolladores externos, y desplegó un contingente técnico para ayudar a restaurar los servicios afectados. En su comunicado, mencionaron: “Reconocemos la interrupción que este problema ha causado en las empresas y en las rutinas diarias de muchas personas. Nuestro enfoque es proporcionar a los clientes orientación técnica y soporte para restaurar de manera segura los sistemas afectados”.

Microsoft colaboró con otros proveedores de la nube para compartir información y coordinar una respuesta efectiva. Publicaron documentación y scripts de remediación, y mantuvieron a los clientes informados a través del Azure Status Dashboard.

Por su parte, CrowdStrike recomendó una solución temporal para abordar este problema y publicó instrucciones para remediar la situación en los endpoints de Windows en el Centro de Mensajes de Windows. Además, proporcionaron actualizaciones continuas a través de su portal de soporte. George Kurtz, CEO y fundador de CrowdStrike, señaló que están operando normalmente y que este problema no afecta los sistemas de la plataforma Falcon. Los servicios Falcon Complete y Falcon OverWatch no están interrumpidos.

Este incidente afectó aproximadamente a 8.5 millones de dispositivos con Windows, lo que representa menos del uno por ciento de todas las máquinas con Windows. A pesar de ser un pequeño porcentaje, tuvo un impacto significativo en muchas empresas que operan servicios críticos. Este evento subraya la interconexión del ecosistema tecnológico global y la importancia de priorizar despliegues seguros y planes de recuperación ante desastres.

Puso en evidencia la importancia de contar con protocolos de seguridad y un plan de gestión de incidentes para responder a una crisis.

Lecciones aprendidas:

  1. Interdependencia de sistemas y servicios: Los sistemas y servicios de diferentes proveedores están interconectados, y una interrupción en los servicios de un proveedor puede afectar la continuidad de las operaciones de la empresa.
  2. Importancia de pruebas y validaciones rigurosas y validaciones adicionales antes de desplegar actualizaciones a gran escala. Aunque se tomen todas las precauciones, siempre existen posibilidades de riesgos y fallos.
  3. Necesidad de colaboración y coordinación: La respuesta oportuna y efectiva a incidentes requiere una estrecha colaboración y coordinación entre todos los actores del ecosistema.
  4. Canales de comunicación ágiles y transparentes: La importancia de tener canales de comunicación eficientes y usarlos de manera ágil y transparente para mantener informados a todos los stakeholders.
  5. Gestión de riesgos y seguridad: Aunque se señaló que no fue un ataque cibernético, los CIO deben estar preparados para prevenir que situaciones similares sean aprovechadas por actores maliciosos. Esto subraya la importancia de la gestión de riesgos, la implementación cuidadosa de actualizaciones, la planificación de contingencias y la colaboración con proveedores.