Getty Images
¿Por qué se cayó Cloudflare? Lecciones aprendidas de esta nueva falla
Conozca qué causó la interrupción del servicio de Cloudflare, así como recomendaciones de expertos de Dynatrace, Check Point, Veeam, NETSCOUT y StaryaAI para evitar incidentes similares.
En la mañana del 18 de noviembre, se produjo una caída generalizada en los servicios de Cloudflare, responsable de la protección y el rendimiento en internet, lo que provocó inestabilidades en plataformas como ChatGPT, Discord, Steam, X y Canva, así como en varios servicios financieros y criptográficos.
Sitios de noticias, sistemas de pago, páginas de información pública y servicios comunitarios de todo el mundo quedaron paralizados. Esto sucedió porque una capa de la nube de la que todos esos sitios dependen dejó de responder. A partir de las 9 de la mañana, usuarios informaron de fallos de acceso, carga y autenticación.
Si bien lo que se veía era una simple página de error, la falla afectó sistemas que sustentan servicios esenciales. Cloudflare actúa como una capa intermediaria entre los usuarios y los servidores, por lo que las interrupciones de este tipo tienen un efecto dominó y pueden afectar a millones de servicios simultáneamente, generando pérdidas significativas para las organizaciones que dependen de la infraestructura.
La empresa identificó la causa y trabajó para mitigar los impactos, lo que generó que los servicios que dependen de Cloudflare poco a poco volvieran a estar disponibles. Sin embargo, el incidente vuelve a poner el dedo en el riesgo de centralizar todo con un único proveedor.
Bob Wambach, vicepresidente de Estrategia y Portafolio de Dynatrace, dijo que el hecho demuestra lo rápido que se propagan las consecuencias de una interrupción en una capa fundamental de protección de internet. “Incidentes globales como este nos recuerdan claramente la dependencia que nuestro mundo ha desarrollado del software y los sistemas digitales para que funcionen correctamente”, afirmó.
Por su parte, Graeme Stewart, director del sector público de Check Point Software, dijo que la caída de Cloudflare sigue el mismo patrón que se vio con las recientes interrupciones de AWS y Azure: “Estas plataformas son enormes, eficientes y se utilizan en casi todos los ámbitos de la vida moderna. Las ventajas son evidentes. Su escala mantiene los costos bajos, hace que las herramientas de seguridad sean más accesibles y ofrece incluso a las pequeñas organizaciones un rendimiento que antes habría sido imposible. Las desventajas son igualmente evidentes. Cuando una plataforma de este tamaño falla, el impacto se extiende rápidamente y todo el mundo lo nota al instante”.
Veeam Software y NETSCOUT también previnieron sobre este tipo de fallas. “La inestabilidad global registrada en la infraestructura de nube de Cloudflare refuerza un patrón que se ha repetido recientemente en interrupciones de otros proveedores de nube, afectando a empresas que dependen exclusivamente de un único proveedor. Estos incidentes ponen de manifiesto un punto crítico: la concentración excesiva de cargas de trabajo en unos pocos actores crea fragilidad estructural y amplía el impacto de los fallos”, señaló Marcio de Freitas, gerente de Ingeniería de Sistemas de Veeam Software.
Jorge Tsuchiya, director regional de NETSCOUT en México, enfatizó que el hecho “revela la relativa fragilidad de la tecnología subyacente que nos conecta. Las redes modernas son más distribuidas, complejas y dependientes de servicios de terceros que nunca, lo que dificulta la identificación de problemas y la restauración de los servicios sin el nivel adecuado de visibilidad”.
Impacto en la seguridad
Cloudflare proporciona servicios de DNS (Sistema de Nombres de Dominio), el mecanismo que convierte los nombres de dominio en direcciones IP. Cuando este servicio se interrumpe, los navegadores no pueden resolver las direcciones y, por lo tanto, se interrumpen las conexiones con los servidores. El resultado: muchos sitios web y servicios quedan indisponibles, incluso aunque los servidores estén operativos.
Además del DNS, Cloudflare opera una red de distribución de contenido (CDN) que acelera la navegación al distribuir copias del contenido en servidores más cercanos a los usuarios. Según Check Point Software, una falla en la CDN obliga a que todas las solicitudes lleguen al servidor original, a veces ubicado a gran distancia geográfica, lo que ralentiza la carga y aumenta la carga sobre la infraestructura central.
El proveedor de seguridad explicó que una gran parte de la internet comercial depende de unos pocos proveedores de infraestructura para servicios críticos. “Cuando un proveedor importante como Cloudflare se enfrenta a una indisponibilidad, el impacto es amplio e inmediato. Esta concentración crea un riesgo sistémico en el que un fallo localizado se traduce en inestabilidad global. Una interrupción de este tipo afecta a la disponibilidad, el rendimiento y la fiabilidad de los servicios. Los usuarios se encuentran con errores de DNS, cargas lentas, fallos en el inicio de sesión y en los pagos, además de un aumento en las tasas de error. Las organizaciones pueden incumplir los acuerdos de nivel de servicio (SLA) y sufrir una pérdida de confianza por parte de los clientes”, comentó Oded Vanunu, director de Investigación de Vulnerabilidades de Check Point Software.
El ejecutivo advirtió que los intentos de eludir el fallo mediante cambios apresurados en la configuración pueden exponer a los servidores a problemas de seguridad, eliminar capas de protección como WAF (firewall de aplicaciones web) o mitigación de DDoS (ataque distribuido de denegación de servicio) y ampliar la superficie de ataque. “Además, una gestión inadecuada del caché puede generar fugas de datos o cargar versiones incorrectas”, añadió.
Desde el punto de vista de la ciberseguridad, esa es la parte que importa, dijo Graeme Stewart de Check Point Software. “Cualquier plataforma que transporte tal volumen de tráfico mundial se convierte en un objetivo. Incluso una interrupción accidental genera ruido e incertidumbre que los atacantes saben cómo aprovechar. Si se provocara deliberadamente un incidente de esta magnitud, la interrupción se extendería por todos los países que utilizan estas plataformas para comunicarse con el público y prestar servicios esenciales”, advirtió.
El camino a la resiliencia pasa por tener varias opciones
Graeme Stewart, de Check Point Software, insistió en que gestionar todo a través de una única vía, sin respaldos significativos, es una vulnerabilidad patente. “Cuando esa vía falla, no hay ningún plan alternativo. Esa es la debilidad que seguimos viendo una y otra vez. Internet estaba destinado a ser resiliente gracias a la distribución, pero hemos acabado concentrando enormes cantidades de tráfico global en un puñado de proveedores de servicios en la nube”.
Por eso, la continuidad del negocio no puede considerarse únicamente como proyectos de redundancia técnica, señaló Erik de Lopes Morais, director de operaciones de Penso Tecnologia. Debe incluir escenarios de fallo de terceros, planes de comunicación, planes operativos alternativos y procesos que permitan que el negocio siga funcionando incluso cuando el proveedor de turno se detiene. “Distribuir los riesgos es tan importante como distribuir las cargas. Y, en un mundo en el que cada vez más empresas dependen de los mismos pocos grandes proveedores, esto debe volver a la agenda de los directores de informática, los directores de seguridad de la información y los líderes tecnológicos”, advirtió de Lopes.
“Mientras no haya diversidad y redundancia reales en el sistema, cada interrupción afectará a las organizaciones y a las personas más de lo que debería”, apuntó Graeme Stewart de Check Point Software.
Marcio de Freitas, de Veeam Software, recomendó adoptar una estrategia de resiliencia que combine distribución de cargas y datos en múltiples nubes, redundancia, movilidad de datos –entre nubes, entornos locales y entornos híbridos sin bloqueos– e independencia de la plataforma.
“La lección más importante es la redundancia”, dijo Vinicius Reis, director de tecnología y cofundador de StaryaAI. “No se debe poner toda la operación en un único proveedor de CDN o DNS. Implementar una arquitectura multicloud o multi-CDN significa que, si Cloudflare falla, su tráfico se desviará automáticamente a un competidor como Akamai o Fastly, manteniendo el sitio en funcionamiento”, explicó.
Adicionalmente, Jorge Tsuchiya, de NETSCOUT, añadió que es fundamental “contar con procesos de preparación para incidentes que, al igual que los simulacros de incendio, requieren práctica, ensayo y perfeccionamiento regulares. Una verdadera observabilidad, que ayuda a comprender no solo qué está fallando, sino por qué y dónde, es esencial para una mayor resiliencia. Esto permite a las organizaciones saber a quién llamar y qué esperar de los proveedores para limitar el impacto de las interrupciones".
Tras una interrupción importante, dijo el ejecutivo, es necesario “evaluar el impacto en el negocio y analizar sus propias redes, para determinar cómo pueden prevenir, evitar o responder rápidamente a una situación similar. No pueden evitar que las cosas fallen en entornos de proveedores de servicios globales, pero sí pueden fortalecer la resiliencia de su propio entorno y procesos”.
En concordancia, Bob Wambach, de Dynatrace, enfatizó la importancia de la visibilidad para los ecosistemas digitales cada vez más complejos. “Las organizaciones mejor preparadas para el futuro serán aquellas que puedan visualizar todo su entorno, anticipar riesgos y adaptarse rápidamente ante lo inesperado”, concluyó.
¿Qué causa estas interrupciones?
Vinicius Reis, director de tecnología y cofundador de StaryaAI, dijo que, a pesar de la redundancia presente en los grandes proveedores, pueden producirse fallos sistémicos. Las tres causas más comunes de inestabilidad son:
- Error de configuración (la causa más común): “En la mayoría de los casos de grandes caídas globales, la causa es un error humano o un fallo de software durante una actualización o un cambio de configuración. Un pequeño error en un enrutador central puede propagarse rápidamente por toda la red global, en lo que se denomina peering”.
- Fallo de hardware/enrutamiento: El fallo físico de un equipo crucial, como un enrutador troncal o un servidor DNS primario, puede segmentar o paralizar parte de la red.
- Ataque cibernético a gran escala: Un evento de denegación de servicio (DDoS) sin precedentes, en volumen o complejidad, aún puede sobrecargar temporalmente la capacidad de filtrado del proveedor.