De British Airways a Facebook, un listado de las principales crisis tecnológicas que expusieron vulnerabilidades críticas y enseñaron valiosas lecciones.
Las interrupciones de TI han vuelto a acaparar los titulares, afectando a empresas e individuos por igual. Estos incidentes no son nuevos; a lo largo de los años, hemos visto varias crisis tecnológicas que han causado grandes trastornos. El equipo de Geonode ofrece una perspectiva experta sobre cómo evitar futuros desastres, proteger la reputación corporativa y fortalecer la resiliencia tecnológica.
"Las interrupciones de TI no se refieren solo a tiempos de inactividad; tienen que ver con la estructura misma de la resiliencia y continuidad de las empresas modernas," dice Josh Gordon, experto en tecnología de Geonode. Esto resume la importancia de la infraestructura de TI en el mundo digital actual. Dado que los sistemas de TI son de misión crítica, las fallas pueden tener consecuencias de gran alcance para millones de usuarios y causar graves daños financieros y de reputación.
En mayo de 2017, una falla catastrófica de TI llevó a British Airways a tierra, manteniendo más de 400 vuelos en tierra y dejando varados a 75,000 pasajeros. Atribuyeron el apagón a una subida de tensión que falló en su centro de datos. Los informes de Reuters muestran que el incidente expuso a una aerolínea sin un plan de recuperación implementado y con una falta total de suministros de energía redundantes, junto con sistemas integrales de respaldo.
Las lecciones aprendidas de este evento subrayan la necesidad de garantizar que los planes de recuperación ante desastres sean bastante sólidos, establecer sistemas de energía redundantes para evitar fallas similares y probar periódicamente los sistemas de respaldo para asegurar que funcionen correctamente en caso de emergencia.
Aunque tradicionalmente no se considera una interrupción de TI, la violación de datos de Equifax de 2017 fue una de las fallas de ciberseguridad más grandes de la historia. Expuso la información personal de 147 millones de personas debido a una vulnerabilidad en una sola aplicación web. Fue causado por procesos inadecuados de administración de parches y por no cifrar datos confidenciales.
Este incidente resalta la importancia de mantener actualizados los procesos de gestión de parches, proteger los datos sensibles mediante cifrado y realizar auditorías de seguridad periódicas y evaluaciones de vulnerabilidad.
En junio de 2019, Google Cloud experimentó una interrupción de gran alcance. Según TechHQ, varios servicios se vieron afectados, desde los servicios de la empresa, como Gmail y YouTube, hasta aplicaciones de terceros que dependen de Google Cloud. La causa fue una mala configuración de la red. Este incidente demostró cuántas empresas dependían de los proveedores de la nube.
Le puede interesar: Apagón informático: fallo en la firma de ciberseguridad CrowdStrike paraliza empresas en todo el mundo
Las lecciones aprendidas incluyen la necesidad de reforzar la configuración y monitoreo de la red, adoptar estrategias multi nube para evitar la dependencia de un solo proveedor y diseñar mecanismos para una conmutación por error robusta y redundancia en arquitecturas de nube.
Por su parte, el 4 de octubre de 2021, Facebook y los servicios asociados como Instagram y WhatsApp estuvieron inactivos durante casi seis horas. Esto debido a un error de configuración en los routers troncales de la empresa, que interrumpió el flujo normal del tráfico de la red. No solo se detuvieron abruptamente las comunicaciones de miles de millones de usuarios, sino que este incidente también expuso las vulnerabilidades de los servicios centralizados. Dicho accidente recalca la necesidad de descentralizar los servicios para evitar un único punto de fallo, introducir procesos robustos de prueba y gestión de configuración, y ser más transparente e interactuar con los usuarios durante las interrupciones.
Por último, la semana pasada una interrupción masiva de TI afectó a aeropuertos, empresas y emisoras de todo el mundo. Las paradas en tierra fueron ordenadas por las principales aerolíneas, incluidas American, Delta y United, todas las cuales alegaron problemas de comunicación. La interrupción se debió a un fallo crítico de un servicio de comunicaciones de red de uso general.
Este incidente perturbó los planes de viaje de miles de personas, afectó las cadenas de suministro globales y provocó enormes retrasos operativos en múltiples industrias. Las lecciones aprendidas de este evento destacan la importancia de mejorar la redundancia en redes de comunicaciones vitales, mejorar el monitoreo en tiempo real y las capacidades de respuesta rápida, y fomentar la colaboración oportuna de la industria para crear infraestructuras más sólidas.
Al observar cada una de estas importantes interrupciones de TI, el futuro de la resiliencia de TI está claro: planificación proactiva y estratégica. "El futuro de la TI es la resiliencia proactiva: anticipar y mitigar posibles puntos de falla antes de que se conviertan en un desastre," declaró Gordon.
Las organizaciones deben adoptar un enfoque multifacético para la resiliencia de TI, invirtiendo en monitoreo avanzado, diversificando las pilas de tecnología, fortaleciendo la recuperación ante desastres, promoviendo la ciberseguridad y fomentando la colaboración. De esta manera, las empresas pueden continuar el camino hacia la adaptabilidad en el futuro y garantizar que su infraestructura de TI sea sólida y confiable centrándose en estas áreas y aprendiendo de incidentes pasados.
Comments