
weerapat1003 - stock.adobe.com
AWS sofreu interrupção de serviço devido a um problema de DNS
Usuários da Amazon Web Services sofreram uma interrupção de serviço depois que o data center da gigante da nuvem pública no norte da Virgínia foi atingido por problemas técnicos. Segundo a Check Point, a falha reforça lições sobre resiliência digital e continuidade dos negócios.
A Amazon Web Services (AWS) declarou que está trabalhando para "restaurar totalmente" os ambientes de nuvem de seus clientes após um "problema operacional" em seu data center no norte da Virgínia ter tirado do ar diversos sites e serviços de internet em todo o mundo em 20 de outubro.
De acordo com o site de monitoramento de interrupções Downtime Detector, os usuários dos serviços da gigante da nuvem pública começaram a relatar problemas por volta das 8h, horário do Reino Unido, na segunda-feira.
Aproximadamente no mesmo horário, o serviço AWS Health Dashboard, que fornece aos usuários uma visão geral do desempenho dos ambientes de nuvem da empresa, começou a detectar problemas em diversos serviços hospedados em sua Região Leste dos EUA 1, no norte da Virgínia.
Esta mensagem foi seguida por diversas admissões de "graves taxas de erro" que afetavam os serviços da AWS na Região Leste dos EUA 1, juntamente com garantias de que a empresa tinha engenheiros "imediatamente no local e trabalhando ativamente para mitigar o problema e compreender completamente a causa raiz".
Mais tarde, por volta das 10h, horário do Reino Unido, o painel da AWS confirmou que: “Serviços ou funções globais que dependem de endpoints US-East-1… também podem estar enfrentando problemas”.
A AWS declarou posteriormente que a interrupção estava relacionada a um problema de DNS que afetava seu serviço de banco de dados NoSQL, DynamoDB: “Identificamos uma possível causa raiz para as taxas de erro da API do DynamoDB na região US-East-1. Com base em nossa investigação, o problema parece estar relacionado à resolução de DNS do endpoint da API do DynamoDB na região US-East-1”.
Dificuldades técnicas são conhecidas por terem tido um efeito dominó em muitos clientes da AWS em todo o mundo, que também relataram problemas como resultado da interrupção da gigante da nuvem. Entre os afetados estavam o provedor de serviços financeiros Lloyds Bank, juntamente com suas subsidiárias Halifax e Royal Bank of Scotland, bem como serviços de mídia social e comunicação, como Snapchat e Signal, e sites de jogos online, como Fortnite e Roblox.
Os serviços de internet de propriedade da Amazon, como seu site de varejo e o serviço de campainha Ring, também foram afetados pela interrupção.
A Computer Weekly no UK contatou a AWS para obter detalhes sobre quando esperava resolver o problema. Em resposta, um porta-voz encaminhou a Computer Weekly para o Painel de Saúde da AWS, onde, entre as atualizações mais recentes, estão declarações sobre como a empresa estava trabalhando para restaurar totalmente os serviços afetados e estava em um ponto em que havia começado a reativar com sucesso aqueles afetados pelos problemas.
Mesmo assim, observadores do mercado de nuvem pública foram rápidos em apontar que a ampla gama de usuários e serviços que ficaram offline como resultado da interrupção pode ser um indicativo da dependência excessiva do mundo nos serviços da AWS.
Especialistas afirmam que os incidentes destacam a importância de as empresas diversificarem o mix de provedores de nuvem com os quais trabalham, em prol do tempo de atividade e da disponibilidade dos serviços.
Nicky Stewart, consultor sênior da The Open Cloud Coalition, uma organização que promove a competição na nuvem pública, disse que a interrupção é um "lembrete visceral dos riscos da dependência excessiva de dois provedores de nuvem dominantes", dada a extensão de suas consequências.
"É muito cedo para avaliar o impacto econômico, mas, para contextualizar, estima-se que a interrupção global da CrowdStrike no ano passado tenha custado à economia do Reino Unido entre £ 1,7 bilhão e £ 2,3 bilhões", observou Stewart.
"Incidentes como este deixam clara a necessidade de um mercado de nuvem mais aberto, competitivo e interoperável, onde nenhum provedor possa, sozinho, prejudicar grandes partes do nosso mundo digital."
Da mesma forma, Rob van Lubek, vice-presidente da Dynatrace para EMEA, afirmou que “incidentes globais como este nos lembram claramente o quão dependentes nos tornamos de softwares e sistemas digitais com o desempenho esperado. Os ambientes de TI atuais são muito mais complexos e interconectados do que muitos imaginam; portanto, quando ocorre uma interrupção, as repercussões podem rapidamente se espalhar por todos os setores e impactar o dia a dia das pessoas”.
“Especialmente para grandes empresas, a diferença entre interrupção e recuperação geralmente se resume à visibilidade e à velocidade: a rapidez com que uma organização consegue identificar o que deu errado, entender o porquê e agir para restaurar a continuidade dos serviços. Esse nível de resiliência digital exige uma compreensão profunda de como os sistemas estão conectados e onde as vulnerabilidades podem surgir, para que as equipes possam se concentrar no que realmente importa em uma crise”, enfatizou.
Dai Vaughan, diretor de tecnologia da consultoria de transformação digital Public Digital, concordou com van Lubek, observando que a interrupção da AWS demonstra que uma falha tecnológica acidental pode representar um risco tão grande para as operações de uma empresa quanto um ataque cibernético.
Por esse motivo, ele observou que as empresas devem usar esse tipo de notícia para desenvolver uma "mentalidade defensiva" ao evitar ameaças de interrupção de serviços, que "abrange tanto a preparação quanto a resiliência" a longo prazo.
"Uma coisa que todas as organizações devem fazer para se preparar é criar uma equipe dedicada de resposta a crises. Ela deve ser composta por menos de 12 pessoas e incluir pessoas com experiência em TI, gerenciamento de dados, comunicações e gestão de stakeholders, bem como liderança sênior", disse Vaughan.
"Em última análise, resiliência não significa eliminar completamente o risco, mas sim compreendê-lo, planejá-lo e cultivar uma cultura capaz de absorver impactos e se recuperar rapidamente", comentou.
"À medida que nossa dependência da tecnologia aumenta e a inteligência artificial continua a transformar a maneira como operamos, manter essa visibilidade em ecossistemas digitais complexos será essencial. As organizações mais bem preparadas para o futuro serão aquelas que conseguem enxergar todo o seu ambiente, antecipar riscos e se adaptar rapidamente quando o inesperado surgir", acrescentou van Lubek.
Por fim, Vaughan concluiu dizendo: “Aqueles que adotarem essa abordagem holística e antecipatória da era da internet não apenas protegerão suas operações, mas também preservarão a confiança de seus clientes e parceiros em um cenário digital incerto.”
A falha global da AWS reforça lições sobre resiliência digital e continuidade dos negócios
Eduardo Gonçalves, country manager da Check Point Software Brasil, compartilha uma reflexão sobre as lições que podem ser tiradas da interrupção de serviços da Amazon Web Services:
“A pane foi mais um lembrete de que o mundo digital não tem fronteiras — uma falha local pode gerar efeitos globais em questão de minutos. Construímos conveniência sobre sistemas compartilhados, mas a resiliência ainda depende de pessoas e processos.
Para os indivíduos, isso significa manter bons backups, salvar informações essenciais offline e conhecer alternativas para se conectar ou pagar caso os sistemas falhem. É preciso ainda ficarmos atentos a golpes e tentativas de phishing — especialmente quando sites de bancos estão fora do ar — e nunca clicar em links nem compartilhar dados que o usuário não reconheça.
Para as organizações, é hora de diversificar. Não mantenha tudo em uma única nuvem. Teste seus mecanismos de contingência, treine suas equipes e planeje o tempo de inatividade antes que ele aconteça. Quando as empresas correm para restaurar o acesso, sistemas e equipes ficam sobrecarregados — e é nesse momento que os atacantes invadem. Espere um aumento em falsas ofertas de ‘reembolso’ ou ‘desconto’, e-mails de phishing e links fraudulentos que alegam corrigir o problema.”
Outra questão levantada por Gonçalves é a de que não são apenas as empresas que estão em risco. Muitas das plataformas afetadas são jogos e aplicativos usados por crianças — um momento ideal para golpistas explorarem a confiança. “A internet pode ser global, mas a resiliência começa no local e com o que cada um de nós faz a seguir.”
Segundo o executivo, mais do que identificar a causa — seja erro humano, falha de sistema ou ciberataque —, o episódio reforça uma vulnerabilidade estrutural que atinge todo o ecossistema digital, evidenciando como a cadeia de suprimentos digital é interconectada. Uma única interrupção ou invasão em um elo pode comprometer toda a cadeia, afetando empresas e usuários em escala mundial.
* Com informações adicionadas por Melisa Osores e Lizzette Pérez