weerapat1003 - stock.adobe.com

AWS sufrió una caída de sus servicios por problema con DNS

Los usuarios de Amazon Web Services (AWS) sufrieron una interrupción del servicio después de que el centro de datos de la región de Virginia del Norte del gigante de la nube pública se viera afectado por dificultades técnicas.

Amazon Web Services (AWS) declaró que está trabajando para “restaurar por completo” los entornos en la nube de sus clientes, después de que un “problema operativo” en su centro de datos de Virginia del Norte dejara fuera de servicio múltiples sitios web y servicios de internet en todo el mundo el día 20 de octubre.

Según el sitio web de seguimiento de interrupciones Downtime Detector, los usuarios de los servicios del gigante de la nube pública comenzaron a reportar problemas alrededor de las 8 de la mañana del lunes, hora del Reino Unido.

Aproximadamente a la misma hora, el servicio AWS Health Dashboard, que proporciona a los usuarios un resumen del rendimiento de los entornos en la nube de la empresa, comenzó a detectar problemas en varios servicios alojados en su región US-East-1, en el norte de Virginia.

A este mensaje le siguieron varias admisiones de “graves índices de error” que afectaban a los servicios de AWS en la región US-East-1, junto con garantías de que la empresa contaba con ingenieros que “se habían puesto manos a la obra de inmediato y estaban trabajando activamente para mitigar el problema y comprender plenamente la causa raíz”. 

Más tarde, alrededor de las 10:00 a. m., hora del Reino Unido, el panel de control de AWS confirmó que: “Los servicios o funciones globales que dependen de los puntos finales de US-East-1... también pueden estar experimentando problemas”.

Posteriormente, AWS afirmó que la interrupción estaba relacionada con un problema de DNS que afectaba a su servicio de base de datos NoSQL DynamoDB: “Hemos identificado una posible causa raíz de las tasas de error de las API de DynamoDB en la región US-East-1. Según nuestra investigación, el problema parece estar relacionado con la resolución DNS del punto final de la API de DynamoDB en US-East-1”.

Se sabe que las dificultades técnicas han tenido un efecto dominó en muchos clientes de AWS en todo el mundo, que también han informado de problemas como consecuencia de la caída de los servicios del gigante de la nube. Entre los afectados estuvieron el proveedor de servicios financieros Lloyds Bank, junto con sus filiales Halifax y Royal Bank of Scotland, así como servicios de redes sociales y comunicaciones como Snapchat y Signal, y portales de juegos en línea como Fortnite y Roblox. 

Los servicios de Internet propiedad de Amazon, como su sitio web minorista y el servicio de timbres Ring, también se vieron afectados por la interrupción.

Computer Weekly se puso en contacto con AWS para solicitar detalles sobre cuándo esperaba resolver el problema. En respuesta, un portavoz remitió a Computer Weekly a AWS Health Dashboard, donde entre las actualizaciones más recientes se encuentran declaraciones sobre cómo la empresa estaba tratando de restablecer por completo los servicios afectados y se encontraba en un punto en el que había comenzado a relanzar con éxito aquellos que se vieron afectados por los problemas. 

Aun así, los observadores del mercado de la nube pública se han apresurado a señalar que la amplia gama de usuarios y servicios que han quedado fuera de línea como consecuencia de la interrupción podría ser indicativa de la excesiva dependencia que el mundo ha adquirido de los servicios de AWS.

Los expertos afirman que los incidentes ponen de relieve la importancia de que las empresas diversifiquen la combinación de proveedores de nube con los que trabajan, en aras del tiempo de actividad y la disponibilidad del servicio.

Nicky Stewart, asesor principal de The Open Cloud Coalition, una organización que promueve la competencia en la nube pública, dijo que la interrupción es un “recordatorio visceral de los riesgos de depender excesivamente de dos proveedores de nube dominantes”, dado lo extendidos que fueron sus efectos secundarios.

“Es demasiado pronto para evaluar las repercusiones económicas, pero, para contextualizar, se calcula que la interrupción global de CrowdStrike del año pasado le costó a la economía británica entre 1.700 y 2.300 millones de libras esterlinas”, señaló Stewart.

“Incidentes como este dejan clara la necesidad de un mercado de la nube más abierto, competitivo e interoperable, en el que ningún proveedor pueda paralizar por sí solo gran parte de nuestro mundo digital”.

Igualmente, Rob van Lubek, vicepresidente para EMEA de Dynatrace, afirmó que “incidentes globales como este nos recuerdan claramente lo dependientes que nos hemos vuelto de que el software y los sistemas digitales funcionen como se espera. Los entornos de TI actuales son mucho más complejos e interconectados de lo que muchos creen, por lo que, cuando se produce una interrupción, las repercusiones pueden extenderse rápidamente por todos los sectores y afectar a la vida cotidiana de las personas”.

“Especialmente para las grandes empresas, la diferencia entre la interrupción y la recuperación suele reducirse a la visibilidad y la rapidez: la rapidez con la que una organización puede identificar lo que ha fallado, comprender por qué y actuar para restablecer la continuidad del servicio. Ese nivel de resiliencia digital requiere un profundo conocimiento de cómo se conectan los sistemas y dónde pueden surgir vulnerabilidades, para que los equipos puedan centrarse en lo que realmente importa en una crisis”, subrayó.

Dai Vaughan, director de tecnología de la consultora de transformación digital Public Digital, concordó con van Lubek, señalando que la interrupción del servicio de AWS demuestra que un fallo tecnológico accidental puede suponer un riesgo tan grande para las operaciones de una empresa como un ciberataque.

Por este motivo, señaló que las empresas deberían aprovechar este tipo de noticias para desarrollar una “mentalidad defensiva” a la hora de evadir las amenazas de interrupción del servicio que “abarca la preparación y la resiliencia” a largo plazo.

“Una cosa que todas las organizaciones deberían hacer para prepararse es crear un equipo específico de respuesta a crisis. Este debería estar formado por menos de 12 personas e incluir a personas con experiencia en TI, gestión de datos, comunicaciones y gestión de las partes interesadas, así como a altos directivos”, afirmó Vaughan.

“En última instancia, la resiliencia no consiste en eliminar el riesgo por completo, sino en comprenderlo, planificarlo y cultivar una cultura capaz de absorber los impactos y recuperarse rápidamente”, comentó.

“A medida que aumenta nuestra dependencia de la tecnología y la inteligencia artificial sigue transformando nuestra forma de operar, será esencial mantener esa visibilidad en ecosistemas digitales complejos. Las organizaciones mejor preparadas para el futuro serán aquellas que puedan ver todo su entorno, anticipar los riesgos y adaptarse rápidamente cuando surja lo inesperado”, complementó van Lubek.

Finalmente, Vaughan concluyó diciendo que: “Quienes adopten este enfoque holístico, anticipatorio y propio de la era de internet no solo protegerán sus operaciones, sino que también preservarán la confianza de sus clientes y socios en un panorama digital incierto”.

*Con información de Melisa Osores

Investigue más sobre Apps y servicios de nube