Getty Images/iStockphoto

Apagón de AWS 2025: Lecciones para una arquitectura digital resiliente en Brasil

El apagón de AWS en octubre de 2025 paralizó bancos, fintechs y minoristas brasileños durante horas, exponiendo la dependencia concentrada en un único proveedor de nube, la negligencia de la capa DNS en los planes de contingencia y la ineficacia de los respaldos tradicionales cuando fallan los servicios de resolución de nombres.

por

Vincent Quezada, Computer Weekly en Español

Publicado: 03 nov 2025

En la madrugada del 20 de octubre de 2025, una falla de DNS en Amazon Web Services paralizó miles de aplicaciones brasileñas durante varias horas. El impacto fue devastador: bancos digitales como PicPay quedaron inaccesibles, Mercado Libre tuvo que emitir comunicados explicando las inestabilidades, los servicios de delivery dejaron de funcionar e incluso asistentes virtuales como Alexa permanecieron mudos. Downdetector registró más de 6,5 millones de reportes globales de interrupciones.

"Amazon tenía los datos almacenados de manera segura, pero nadie pudo encontrarlos durante horas, dejando a las aplicaciones temporalmente aisladas de sus datos", le explicó Mike Chapple, experto de la Universidad de Notre Dame, a CNN. AWS recuperó los servicios a las 8:00 a.m. (horario de Brasília), pero el daño reputacional y financiero ya estaba hecho.

El apagón reveló tres vulnerabilidades críticas que afectan a las plataformas digitales brasileñas de manera sistémica:

Una dependencia excesiva en un único proveedor de nube, que crea puntos únicos de falla fuera del control de los equipos internos.
Las fallas de DNS afectan capas invisibles de la infraestructura, rara vez probadas en los planes de contingencia con el mismo rigor que las bases de datos y aplicaciones.
Los respaldos y redundancias tradicionales se vuelven inútiles cuando fallan los servicios fundamentales de resolución de nombres, ya que los sistemas no pueden localizar los datos replicados.

Para el mercado brasileño, que moverá R$ 100 mil millones en software en 2025, según la Associação Brasileira das Empresas de Software (ABES), estas vulnerabilidades no son teóricas. Con el Open Finance exigiendo API estandarizadas, el móvil dominando el 72 % de los accesos y la dependencia de la nube creando riesgos operativos, la solución exige un enfoque integrado: API gobernadas como productos estratégicos, arquitecturas mobile-first que trascienden el diseño responsivo y seguridad de confianza cero que protege ecosistemas distribuidos.

Las ventajas de la API como producto

La dependencia concentrada en un único proveedor de nube solo puede mitigarse con arquitecturas basadas en API bien gobernadas, que permitan portabilidad y conmutación por error automático entre proveedores. Las finanzas abiertas en Brasil aceleraron esta transformación al obligar a las instituciones financieras a compartir datos mediante consentimiento, a través de API estandarizadas. Liga Ventures documenta que el volumen de transacciones vía API se duplicó entre 2024 y 2025.

Así surge el concepto de "API-as-a-Product". Mientras una API tradicional se desarrolla para resolver problemas puntuales, una API como producto se diseña desde el inicio con gobernanza completa.

Durante el apagón de AWS, las empresas que operaban API como productos lograron activar rápidamente failovers a proveedores alternativos, comunicar el estatus a través de portales de desarrolladores alojados en infraestructuras independientes y mantener visibilidad completa sobre qué integraciones estaban afectadas. Las que operaban API tradicionales quedaron ciegas, sin saber qué socios estaban fuera de línea o cómo priorizar la recuperación.

Las plataformas modernas de gestión de API centralizan documentación, autorización, limitación de tasa adaptativa y observabilidad sin crear cuellos de botella operativos. Los contratos OpenAPI funcionan como especificaciones ejecutables que alimentan la generación automática de SDK, validación de solicitudes y pruebas de regresión.

Las fintechs brasileñas que implementan este enfoque logran integrar nuevos socios en cuestión de días y pueden migrar cargas de trabajo entre proveedores de nube sin reescribir integraciones. Durante el apagón, esta portabilidad permitió su recuperación en minutos, no en horas.

Mobile-first optimiza la arquitectura frente a fallas de DNS

La segunda vulnerabilidad revelada por el apagón –la negligencia de la capa DNS en los planes de contingencia– exige arquitecturas diseñadas para móviles, que asuman la conectividad inestable como estándar, no como excepción. Con el móvil representando el 98 % de los accesos en plataformas de comercio electrónico y servicios digitales brasileños según el IBGE, las aplicaciones deben funcionar incluso cuando falla la resolución de nombres.

El patrón Backend-for-Frontend (BFF) ejemplifica esta integración resiliente. Cada canal (móvil, web, asistentes de voz) recibe API dedicadas, optimizadas para sus características específicas. Durante el apagón de AWS, las aplicaciones con BFF lograron mantener funcionalidades esenciales fuera de línea porque almacenaban localmente los datos críticos y sincronizaban de manera incremental cuando la conexión se restablecía. Las aplicaciones monolíticas quedaron completamente inutilizables.

Durante el apagón, estas técnicas permitieron a los usuarios continuar navegando catálogos, añadiendo productos a carritos offline y completando transacciones tan pronto como se restablecía la conexión.

La elección entre Progressive Web Apps (PWA) y aplicaciones nativas gana relevancia en contextos como el del apagón. Las PWA ofrecen capacidades offline robustas a través de service workers, que interceptan solicitudes y sirven contenido almacenado en caché cuando falla el DNS. Forrester documenta que 62 % de las corporaciones brasileñas adoptan estrategias que combinan PWA para resiliencia con aplicaciones nativas para rendimiento.

Los marcos multiplataforma multiplican el valor de este enfoque. Durante el apagón, las empresas con este tipo de arquitecturas implementaron soluciones alternativas simultáneas en iOS, Android y web con cambios mínimos de código, reduciendo drásticamente el tiempo de recuperación.

Zero Trust protege cuando fallan los respaldos

En cuanto a la ineficacia de los respaldos tradicionales durante fallas de DNS, esta vulnerabilidad exige seguridad con confianza cero, implementando autenticación continua y contextual que funcione incluso cuando los sistemas centralizados están fuera de línea.

Durante el apagón, las aplicaciones móviles que dependían de servidores de autenticación centralizados quedaron completamente bloqueadas, incluso con credenciales válidas y datos replicados localmente. Zero Trust resuelve esto con tokens JWT autocontenidos que llevan toda la información necesaria para validación local. Durante el apagón, esta técnica mantuvo la integridad de las transacciones incluso con DNS comprometido.

La detección de anomalías basada en aprendizaje automático complementa las medidas preventivas. Los sistemas aprenden patrones normales de uso móvil e identifican desviaciones en tiempo real, como intentos de acceso con tokens expirados, secuencias de API inconsistentes con flujos de aplicación o solicitudes provenientes de ubicaciones geográficamente imposibles.

Integrar los tres pilares ofrece resiliencia sistémica

La resiliencia de las plataformas digitales brasileñas depende de la integración de los tres pilares mencionados para responder a las vulnerabilidades reveladas por el apagón:

Tratar las API como productos mitiga la dependencia concentrada y permite la portabilidad entre distintos proveedores.
Un enfoque mobile-first parte del supuesto de una conectividad inestable y considera las fallas de DNS como un escenario operativo normal.
El modelo de confianza cero garantiza la seguridad incluso cuando las infraestructuras centralizadas presentan fallas.

Asimismo, las estrategias multi-DNS han evolucionado para incluir diversos proveedores –como Cloudflare, Google Cloud DNS y Route53 en múltiples regiones–, tanto para la resolución autoritativa como para la recursiva. El desacoplamiento arquitectónico separa la resolución de nombres, el enrutamiento del tráfico y el acceso a los datos, evitando que una falla aislada comprometa la plataforma completa.

Las pruebas de caos también han avanzado para simular vulnerabilidades de desconexión forzada del proveedor de nube, fallas de DNS e indisponibilidad de sistemas centralizados de autenticación. Las empresas que realizan simulaciones de manera mensual pueden medir el impacto sobre los procesos de autenticación, los pagos y las rutas críticas de experiencia del usuario.

Un tema que no hay que dejar de lado es la comunicación de crisis a través de páginas de estadus alojadas en infraestructuras independientes, mensajes push enviados por canales alternativos y rutas de excepción dentro de las apps móviles que expliquen los problemas temporales con instrucciones precisas. Esto puede marcar una enorme diferencia en la confianza de los clientes.

El apagón de AWS funcionó como una prueba de estrés involuntaria, que distinguió a las plataformas realmente resilientes de aquellas que solo aparentaban ser robustas. Para el mercado brasileño que compite a nivel global, la lección es clara: es necesario lograr sistemas resilientes que eviten otro evento semejante.

Apagón de AWS 2025: Lecciones para una arquitectura digital resiliente en Brasil

Las ventajas de la API como producto

Mobile-first optimiza la arquitectura frente a fallas de DNS

Zero Trust protege cuando fallan los respaldos

Integrar los tres pilares ofrece resiliencia sistémica

Investigue más sobre Apps y servicios de nube

Infoblox apuesta por impulsar las redes resilientes en Latinoamérica

Prometeo habilitó pagos con Pix en la final de la Copa Libertadores en Perú

¿Por qué se cayó Cloudflare? Lecciones aprendidas de esta nueva falla

AWS sufrió una caída de sus servicios por problema con DNS