kokotewan - stock.adobe.com

Causas de queda de energia no data center e como preveni-las

Mitigar interrupções de energia em data centers é crucial para a sobrevivência dos negócios. Aprenda as estratégias que as organizações usam hoje para proteger sua infraestrutura crítica contra interrupções.

Os sofisticados data centers atuais lidam com operações e processos de missão crítica, e não é viável desligá-los — mesmo por um curto período. As equipes de TI e recuperação de desastres devem estar preparadas para mitigar as interrupções dos data centers.

Interrupções ou falhas de energia podem não resultar em um apagão completo, mas ainda assim podem afetar negativamente as operações do data center. Interrupções podem causar o desligamento parcial ou total do data center ou operação abaixo do padrão. Mesmo um atraso parcial em sistemas críticos pode resultar em desempenho inaceitável dos equipamentos do data center, violando acordos de nível de serviço ou perdendo a confiança do cliente.

Apesar de todas as precauções que as organizações podem tomar para fornecer energia ininterrupta aos data centers, podem ocorrer situações que ameaçam a continuidade de suas operações. Estratégias de energia de emergência são uma parte vital do planejamento de recuperação de desastres (DR). Os data centers correm sérios riscos sem sistemas de energia de emergência e estratégias para proteger seu fornecimento de energia.

Embora nenhum sistema de energia seja 100% infalível, as organizações podem implementar salvaguardas para reduzir a probabilidade de uma interrupção não planejada. O objetivo é minimizar o potencial de falha de componentes e normalizar as operações o mais rápido possível. Este artigo discutirá as causas comuns de quedas de energia em data centers e oferecerá dicas para mitigá-las.

Causas comuns de quedas de energia em data centers

Existem várias causas comuns de quedas de energia em data centers, cada uma com seus próprios efeitos destrutivos. A equipe de TI e DR deve estar familiarizada com essas interrupções e entender como elas podem afetar a infraestrutura existente.

Eventos relacionados ao clima

Tempestades severas, terremotos, tsunamis, furacões, tornados, inundações, deslizamentos de terra ou raios podem danificar linhas de energia e infraestrutura crítica de serviços públicos, o que pode afetar o fornecimento de energia a uma ampla área geográfica. Temperaturas extremas podem sobrecarregar os sistemas de refrigeração, potencialmente levando a paradas.

Interrupções de empresas de serviços públicos

A rede elétrica nacional dos EUA é composta por diversos sistemas de energia interconectados. Os data centers podem ficar sem energia durante falhas na rede elétrica regional ou apagões, que podem ser causados ​​por alta demanda ou falha de equipamentos. Além disso, a infraestrutura crítica nacional continua envelhecendo, o que pode levar a interrupções.

Mau funcionamento do equipamento

Falhas nos sistemas primários ou de backup podem levar a interrupções prolongadas para concessionárias de serviços públicos e usuários finais. Hardware ou software defeituosos em sistemas de gerenciamento de energia também podem causar interrupções.

Erro humano

Funcionários de concessionárias de serviços públicos têm uma enorme responsabilidade em manter o fluxo de energia, e o treinamento inadequado dos funcionários pode causar erros durante a manutenção ou atualizações do sistema. Mesmo técnicos experientes em concessionárias de serviços públicos podem, ocasionalmente, cometer erros.

Incidentes de segurança cibernética

Ataques de segurança cibernética são uma ameaça crescente à infraestrutura energética crítica do país. Ataques direcionados de ransomware ou hacking de softwares de monitoramento de energia podem ser explorados para ameaçar a geração e o fornecimento de energia.

Estratégias para evitar futuras interrupções

Proteger data centers contra cortes de energia não planejados exige um programa bem elaborado de manutenção, testes, documentação, monitoramento e análise de dados de desempenho energético. A seguir, uma lista de estratégias essenciais para estabelecer um ambiente de energia robusto, seguro e sustentável:

  • As empresas de energia elétrica são parceiras importantes nas operações de data centers. A cooperação estreita com as operadoras e as revisões regulares da qualidade da energia mantêm as organizações atualizadas e informadas sobre o status de seus recursos.
  • A qualidade da energia pode variar muito de acordo com a fornecedora, por isso é essencial investir em equipamentos que eliminem ou minimizem anomalias de energia, como flutuações de tensão ou frequência, quedas, picos, surtos, quedas de energia ou apagões. Isso inclui condicionadores de energia, filtros de linha, supressores de surtos, para-raios e muitos outros dispositivos.
  • Obter energia comercial primária de duas redes elétricas diferentes e direcioná-la ao data center por caminhos diversos, se possível, pode aumentar as chances de recuperação de uma organização em caso de queda de energia. No entanto, os custos para projetar e construir uma infraestrutura de energia tão diversificada podem ser proibitivos.
  • Em um data center de médio a grande porte, os sistemas de energia de emergência normalmente incluem um sistema de alimentação ininterrupta (UPS) centralizado, que fornece energia contínua em caso de queda de energia comercial. Se os tanques forem reabastecidos, os geradores a motor podem funcionar indefinidamente.
  • Estabeleça fontes primárias e alternativas de combustível para geradores de emergência e, se possível, providencie a entrega rápida de combustível, mesmo que isso tenha um custo extra.
  • Configure sistemas de energia de emergência para fornecer energia de emergência para cargas de computador previstas, sistema HVAC do data center, armários de telecomunicações, luzes de emergência e outras cargas, conforme necessário.
  • Dimensione o sistema de energia de emergência para lidar com as cargas previstas.
  • Se for utilizado equipamento UPS modular, o conjunto de energia de reserva pode ser expandido por meio de módulos UPS e baterias adicionais.
  • Para garantir que os sistemas de energia de emergência funcionarão quando necessário, realize testes regulares, especialmente com carga elétrica média a máxima.
  • Um programa de manutenção é essencial, além de testes regulares. Isso inclui o agendamento de testes dos sistemas de energia primários e de reserva, inspeções regulares e o cumprimento das recomendações do fabricante para manutenção e suporte.
  • O benchmarking é outra estratégia para proteção de energia. Isso significa estabelecer um mecanismo de rastreamento que documente os resultados de cada teste. Esses dados podem ajudar a indicar possíveis problemas antes que eles ocorram.
  • Considere instalar sistemas de energia de emergência equipados com bancos de carga capazes de fornecer cargas equivalentes a 100% da capacidade do gerador. Isso permite testes completos sem afetar as operações do data center.
  • Desenvolver procedimentos de emergência para responder a problemas de energia, minimizando os efeitos nos sistemas críticos do data center. Esses procedimentos devem listar ações passo a passo a serem tomadas para cada tipo de emergência.
  • Certifique-se de ter acesso a pessoal de manutenção treinado para facilitar a recuperação do sistema elétrico. Se os funcionários no local não estiverem familiarizados com a operação do sistema elétrico, obtenha os dados dos fabricantes dos equipamentos ou contrate um profissional especializado em sistemas elétricos.
  • Certifique-se de que a documentação do sistema de energia esteja atualizada e que os documentos estejam disponíveis em versões eletrônicas e impressas.
  • Localize os sistemas de energia primários e de reserva em áreas seguras para evitar acesso não autorizado.
  • Se possível, comissione os sistemas de energia antes de colocá-los em serviço. O comissionamento examina e testa todos os componentes do sistema de energia de ponta a ponta em todo o data center para garantir que todos os componentes funcionem corretamente em conjunto.
  • Invista em tecnologia de inteligência artificial (IA) para melhorar o monitoramento, a detecção e resposta a problemas e a conformidade com os padrões regulatórios.

O papel da IA ​​na prevenção de interrupções

Muitas das estratégias deste artigo podem ser executadas com inteligência artificial. Os sistemas de gerenciamento de energia atuais contam com elementos de IA que realizam as seguintes funções:

  • Manutenção preditiva. A IA pode analisar dados de desempenho do sistema usando algoritmos que podem prever possíveis falhas em equipamentos de energia.
  • Otimização de energia. Ferramentas de IA podem usar padrões de consumo de energia para otimizar o uso de energia e a eficiência do sistema.
  • Identificação e resposta a potenciais falhas. A detecção de potenciais condições de falha usando IA identifica anomalias em tempo real e inicia uma resposta autônoma.
  • Gerenciamento de carga em tempo real. Ao detectar um problema de energia, as ferramentas de IA podem reposicionar automaticamente as cargas de trabalho nos dispositivos de computação durante interrupções de energia, mantendo as operações críticas.
  • Suporte para recuperação de desastres em data centers. Administradores de sistemas de energia de data centers podem usar simulações baseadas em IA e planejamento de cenários para se preparar para quedas de energia.
  • Monitoramento remoto automatizado. A IA pode monitorar atividades de energia remotamente e oferecer suporte ao monitoramento de vários data centers.

O custo real das quedas de energia em data centers

A perda de energia em data centers pode prejudicar empresas de todos os portes e setores. As consequências de uma interrupção podem incluir a falha na entrega de produtos e serviços no prazo, perda de clientes, perda de receita e danos à reputação.

Por exemplo, em 2024, 60 data centers no norte da Virgínia mudaram simultaneamente para geradores de reserva, quase causando apagões, devido a uma falha no para-raios de uma linha de transmissão de alta tensão.

De acordo com o Uptime Institute, que fornece orientação sobre como proteger data centers contra interrupções e aumentar o tempo de atividade e a disponibilidade, 70% das interrupções custam mais de $100,000 USD, enquanto algumas podem acabar custando milhões em perda de receita de clientes e danos à reputação.

O relatório de 2024 do Uptime Institute observou que aproximadamente 55% das organizações relataram pelo menos uma interrupção de data center nos últimos três anos. O relatório também apontou que falhas nos sistemas de energia e refrigeração foram responsáveis ​​por 71% dessas interrupções, sendo o erro humano um fator contribuinte significativo.

Sobre o autor: Paul Kirvan, FBCI, CISA, é um consultor independente e redator técnico com mais de 35 anos de experiência em continuidade de negócios, recuperação de desastres, resiliência, segurança cibernética, GRC, telecomunicações e redação técnica.

Saiba mais sobre Gerenciamento de data center