Arjuna Kodisinghe - stock.adobe.

Complexidades da integração de IA em data centers legados

Integrar IA à infraestrutura de data center legado é desafiador. O aumento de calor e carga exige sistemas de resfriamento avançados, ajustes estruturais e maior capacidade de energia.

Data centers de todos os tamanhos estão integrando servidores avançados de inteligência artificial (IA) em suas infraestruturas à medida que a demanda por carga de trabalho aumenta. Incorporar IA em data centers legados é complexo porque eles não foram projetados para lidar com o aumento da carga e do calor dos servidores.

A integração de IA exige projetos especializados semelhantes aos de data centers de hiperescala, que também enfrentam desafios de alta carga. Os avanços na velocidade de processamento e a crescente demanda por servidores de IA fazem com que os processadores gerem mais calor do que os sistemas de resfriamento convencionais em data centers legados. Os sistemas de resfriamento precisam evoluir para acompanhar o aumento das temperaturas. Isso envolve mudanças na infraestrutura e no projeto, como carga no piso, espaço nos gabinetes, densidade dos racks e gerenciamento de energia, bem como a integração de sistemas de resfriamento líquido.

Carregamento de piso e armários

Os primeiros gabinetes de rack tinham 610 milímetros quadrados e pesavam cerca de 113 quilos. A maioria dos andares de edifícios suportava essa capacidade quando as cargas eram distribuídas por pisos elevados. Avanços e a integração de servidores de IA aumentaram o peso e o tamanho dos gabinetes. Os gabinetes modernos agora suportam de 1.134 a 1.361 quilos. Gabinetes mais pesados ​​podem exigir especificações de piso superiores às da maioria das novas construções.

Os administradores devem substituir ou reforçar os gabinetes para suportar o aumento de peso dos servidores de IA. Isso requer a avaliação do tamanho e do peso dos gabinetes, do número de racks de servidores, do design dos corredores, dos sistemas de refrigeração e da capacidade de peso do piso elevado, que varia de acordo com a altura do piso e o posicionamento dos equipamentos. Gabinetes excepcionalmente profundos normalmente não se encaixam nos espaçamentos das fileiras existentes, tornando o layout desafiador. A IBM possui uma calculadora de carga de piso disponível que estima o valor da carga de piso dos equipamentos.

Poder

Os gabinetes padrão de data center contêm 42 unidades de rack, com as configurações de rack mais comuns variando entre 100 quilowatts e 150 kW. Os data centers legados foram projetados para usar uma densidade de rack de 5 kW a 10 kW. A integração de servidores de IA exige uma densidade de rack de pelo menos 50 kW. Circuitos e fiação CA convencionais não conseguem fornecer com eficiência a corrente elétrica necessária para matrizes de IA maiores. Além disso, cabos de alimentação, plugues e tomadas convencionais não são adequados para as temperaturas em gabinetes de servidores de IA.

Muitas plataformas de IA padronizaram a tensão CC de 400 volts, exigindo fontes de alimentação especiais e barramentos de distribuição de energia integrados. Os administradores devem contratar especialistas para integrar toda a energia em um complexo de gabinetes com o rack de computação e instalar barramentos de energia para gerenciar a distribuição elétrica acima dos pisos elevados. Isso aumenta o fluxo de ar e a eficiência do resfriamento.

As classificações de circuito atendem apenas a uma plataforma de cluster de computação de IA, que provavelmente é a mais instalada em um data center legado. Instalações maiores usam tensões ainda mais altas, e toda a energia deve ser redundante.

Uma fonte de alimentação ininterrupta e estável é essencial para as infraestruturas de IA, que operam a 100% da capacidade o tempo todo. Os administradores devem avaliar o aumento de energia necessário para integrar e sustentar as operações dos servidores de IA e atualizar os sistemas elétricos para atender à demanda de energia. Os administradores também devem avaliar os geradores de reserva e atualizá-los para garantir que os sistemas de reserva possam lidar com o aumento do consumo de energia e, assim, reduzir o tempo de inatividade.

Resfriamento

Muitos servidores de IA suportam a integração de circuitos de resfriamento líquido direto no chip, que resfriam os processadores. Os sistemas direto no chip resfriam até 75% da carga de calor, enquanto os sistemas de resfriamento convencionais gerenciam o calor restante.

Por exemplo, se 25% de ar suplementar forem necessários para um gabinete de 60 kW, 15 kW de resfriamento a ar são necessários e devem estar dentro da capacidade de um equipamento de resfriamento de data center bem projetado. Um gabinete de 150 kW requer de 30 kW a 45 kW de resfriamento a ar, o que está além da capacidade de reserva da maioria dos sistemas de ar legados. Uma instalação de 250 kW pode exigir de 50 kW a 75 kW ou mais de resfriamento a ar, o que é possível em data centers de hiperescala.

Sistemas de resfriamento alternativos a serem considerados

Os sistemas de refrigeração devem fornecer serviço 24 horas por dia, com redundância e confiabilidade excepcionalmente alta. Sistemas de refrigeração eficazes dependem da localização do data center. O resfriamento evaporativo ou o uso de torres de resfriamento separadas, por exemplo, pode ser mais adequado em climas quentes e secos. O resfriamento a seco é mais indicado quando a água é escassa ou em climas mais frios.

A distribuição de água para equipamentos de computação requer unidades de distribuição de refrigerante (CDUs). Esses trocadores de calor especializados conectam o abastecimento de água das instalações do edifício ao abastecimento de água da tecnologia do gabinete.

O resfriamento direto no chip utiliza microcanais que podem ser obstruídos por água contaminada. A CDU permite que o abastecimento de água da instalação seja completamente filtrado e tratado. CDUs pequenas estão disponíveis para montagem em rack, e CDUs grandes possuem válvulas de balanceamento que conectam equipamentos com diferentes requisitos de fluxo e pressão.

Outro método alternativo de resfriamento é o uso de resfriadores ativos de porta de gabinete, que requerem água gelada. Os resfriadores ativos de porta consomem energia do ventilador, mas geralmente são mais eficientes em termos de energia do que grandes instalações de resfriamento a ar, o que pode viabilizar gabinetes integrados com chip e resfriamento a ar.

Sobre o autor: Robert McFarlane é diretor sênior responsável pelo projeto de data centers da empresa de consultoria internacional Shen Milsom and Wilke LLC. McFarlane tem mais de 40 anos de experiência em consultoria de comunicação e possui experiência em todos os segmentos do setor de data centers.

Saiba mais sobre Arquitetura de data center