Durante anos, a história decentro de dadoso consumo de energia seguiu um arco previsível. A digitalização estava a crescer, claro, mas os ganhos de eficiência decorrentes de melhores servidores, virtualização e consolidação da nuvem mantiveram o consumo total de eletricidade surpreendentemente estável. A procura global de energia nos centros de dados oscilou em torno de 1% do consumo total de eletricidade – cerca de 200 terawatts-hora por ano – durante quase uma década.
Essa era está terminando.
A convergência da IA generativa, da mineração de criptomoedas, da computação de ponta e do crescimento exponencial de dispositivos conectados quebrou a antiga curva de eficiência. As estimativas da indústria mostram agora que a procura de energia nos centros de dados cresce a taxas anuais nunca vistas desde o início da década de 2000. Em algumas regiões – Irlanda, Virgínia do Norte, Singapura – os centros de dados já representam 15 a 25 por cento do consumo total de electricidade, forçando os reguladores a impor moratórias às novas construções.
Neste contexto, as escolhas de infraestrutura que antes pareciam detalhes técnicos (arquitetura de refrigeração, topologia de distribuição de energia, planejamento de densidade de rack) tornaram-se decisões de diretoria. O custo de energia não é mais um item de linha. É uma restrição ao crescimento.
A Eficácia do Uso de Energia, ou PUE, tem sido a métrica de eficiência padrão do setor de data centers há quase duas décadas. É uma proporção simples: potência total da instalação dividida pela potência do equipamento de TI.
Um PUE de 2,0 significa que para cada watt que alimenta servidores e armazenamento, outro watt vai para resfriamento, iluminação, perdas de conversão de energia e outras despesas gerais. Um PUE de 1,2 significa que a sobrecarga consome apenas 0,2 watts por watt de TI.
A indústria tem níveis amplamente aceitos com base na PUE:
| Nível | PUE | DCiE | O que isso significa |
|---|---|---|---|
| Platina | <1,25 | >0,80 | Eficiência de classe mundial, normalmente requer refrigeração gratuita ou refrigeração líquida |
| Ouro | 1,25 – 1,43 | 0,70 – 0,80 | Muito eficiente, alcançável com designs modernos em climas moderados |
| Prata | 1,43 – 1,67 | 0,60 – 0,70 | Aceitável para instalações mais antigas ou climas mais quentes |
| Bronze | 1,67 – 2,00 | 0,50 – 0,60 | Típico para data centers legados sem grandes retrofits |
| Justo | 2h00 – 2h50 | 0,40 – 0,50 | Baixa eficiência, alto custo operacional |
| Pobre | >2,50 | <0,40 | Ineficiência crítica, provavelmente requer atenção imediata |
O problema é que muitas organizações não conhecem realmente a sua PUE. Eles estimam. Eles adivinham. Ou medem apenas no medidor principal da concessionária e assumem o resto.
Uma pesquisa do setor realizada em 2023 descobriu que quase 40% dos operadores de data centers nunca haviam medido o PUE no nível do rack. Entre aqueles que o fizeram, o spread entre o PUE relatado e o real foi em média de 0,3 pontos – o suficiente para mover uma instalação de Ouro para Prata sem que ninguém percebesse.
Entender por que o PUE varia tanto começa com a observação de onde a energia sai de um data center.
Em uma instalação típica refrigerada a ar com um PUE em torno de 1,8, a divisão é mais ou menos assim:
A carga de resfriamento é a maior variável. Uma instalação num clima temperado que utilize ar exterior para arrefecimento gratuito poderá gastar apenas 15% da sua energia não relacionada com TI em arrefecimento. A mesma instalação num clima tropical com refrigeração mecânica durante todo o ano pode gastar 40%.
É por isso que os provedores de colocation anunciam o PUE no nível da instalação, mas entregam o PUE no medidor do cliente: números diferentes, implicações diferentes. O cliente paga por tudo isso.
O gerenciamento tradicional de data centers pressupunha um ambiente relativamente estático. As prateleiras foram preenchidas ao longo de meses ou anos. O resfriamento pode ser ajustado lentamente. A distribuição de energia foi superdimensionada desde o primeiro dia.
A era da nuvem mudou as suposições. Os racks agora são preenchidos em dias. As cargas de trabalho mudam automaticamente entre servidores. Clusters de IA de alta densidade podem consumir três vezes mais energia dos racks de computação adjacentes de uso geral.
Estas mudanças forçaram a repensar a gestão da infraestrutura. Três tendências se destacam.
Primeiro, a densidade está a aumentar de forma desigual.Um rack de servidor padrão há uma década consumia de 5 a 8 quilowatts. Hoje, os racks de uso geral consomem de 10 a 15 quilowatts. Os racks de computação de alto desempenho e treinamento de IA excedem rotineiramente 30 quilowatts por rack. Alguns excedem 50 quilowatts.
Isto cria desafios de gestão térmica que a refrigeração do ar tem dificuldade em resolver. A 20 quilowatts por rack, o resfriamento do ar permanece eficaz com contenção adequada. Com 30 quilowatts, torna-se marginal. A 40 quilowatts e acima, o resfriamento líquido passa de opcional a necessário.
Em segundo lugar, o planeamento da capacidade tornou-se preditivo.O método antigo – comprar mais capacidade do que o necessário e deixá-la ociosa – não funciona mais em escala. A capacidade ociosa tem custos de capital e custos de manutenção contínua.
Os sistemas modernos de gerenciamento de infraestrutura usam dados históricos e previsão de carga de trabalho para prever quando a energia, o resfriamento ou o espaço em rack acabarão. Os melhores sistemas podem recomendar a reconfiguração da capacidade existente ou a encomenda de novo hardware, dias ou semanas antes de uma restrição se tornar crítica.
Terceiro, os requisitos de visibilidade têm exofendido.Um data center tradicional pode monitorar a energia no nível da PDU. Uma instalação moderna precisa de visibilidade no nível do rack, às vezes no nível do servidor e cada vez mais no nível da carga de trabalho – sabendo qual máquina virtual ou contêiner aciona qual consumo de energia.
Infraestrutura de centro de dadosO software de gerenciamento (DCIM) existe há mais de uma década, mas a adoção continua desigual. Menos da metade dos data centers corporativos implantaram um sistema DCIM completo. Muitos que usaram apenas uma fração de suas capacidades.
Um sistema DCIM implementado corretamente faz quatro coisas:
Gestão de ativos.Cada servidor, switch, PDU e unidade de resfriamento são rastreados em um banco de dados de gerenciamento de configuração (CMDB). Localização, potência, conexões de rede, histórico de manutenção – tudo isso. Isso parece básico, mas muitas organizações ainda monitoram ativos em planilhas que passam meses entre atualizações.
Monitoramento em tempo real.Consumo de energia na PDU ou no nível do rack, temperatura e umidade nos pontos de fornecimento e retorno, status do sistema de resfriamento, integridade da bateria do UPS. Os alarmes são acionados quando os parâmetros se desviam dos pontos de ajuste. O objetivo é detectar problemas antes que eles causem tempo de inatividade.
Planejamento de capacidade.O sistema sabe quanta capacidade de energia e refrigeração está disponível, quanto está em uso e quanto está reservado para implantação futura. Ele pode modelar o impacto da adição de um novo rack de alta densidade ou da desativação de um conjunto de servidores mais antigos.
Visualização.Um gêmeo digital do data center — rack por rack, bloco por bloco — mostra as condições atuais e permite que os operadores simulem alterações. Adicionando 10 quilowatts de carga à linha três, coluna quatro: isso excede a capacidade de resfriamento? O sistema responde antes que alguém mova o equipamento.
Reduzir o consumo de energia do data center não é um mistério. Os métodos são bem compreendidos. O desafio é a disciplina de implementação.
Aumente a temperatura do ar fornecido.A maioria dos data centers funciona a frio – 18 a 20 graus Celsius no retorno da unidade de resfriamento – porque é isso que os operadores sempre fizeram. As diretrizes da ASHRAE agora recomendam 24 a 27 graus. Cada aumento de grau reduz a energia de resfriamento em cerca de 4%. Funcionar a 26 graus em vez de 20 graus economiza de 20 a 25% da energia de resfriamento.
Elimine a mistura de ar quente e frio.A contenção do corredor quente, a contenção do corredor frio ou os dutos de exaustão verticais forçam o ar de resfriamento a ir para onde é necessário, em vez de circular rapidamente pela frente dos racks. A contenção por si só normalmente reduz a energia de resfriamento em 15 a 25 por cento.
Use unidades de velocidade variável.Ventiladores e bombas de velocidade constante desperdiçam energia em carga parcial. Os acionamentos de velocidade variável adaptam o fluxo de ar e o fluxo de água à demanda real. Os períodos de retorno do investimento são normalmente de 1 a 3 anos.
Otimize a operação do UPS.A maioria dos sistemas UPS funciona continuamente em modo de dupla conversão – convertendo CA em CC e novamente em CA, mesmo quando a energia da rede elétrica está limpa. Os sistemas UPS modernos podem mudar para o modo econômico quando a qualidade da energia permitir, alcançando 99% de eficiência em vez de 94-96%. A compensação é um breve tempo de transferência para a bateria se a energia da rede elétrica falhar. Para cargas de TI com fontes de alimentação projetadas para tais transferências, o risco é mínimo.
Adote distribuição de alta tensão.Distribuir energia em 415 V em vez de 208 V reduz as perdas na distribuição em aproximadamente 25%. Isso requer PDUs e fontes de alimentação de servidor compatíveis, mas muitos dispositivos modernos oferecem suporte.
Empresa Shangyu CPSY, uma empresa de alta tecnologia com foco em infraestrutura de data center, reporta uma PUE de 1,3 para suas soluções modulares de data center. Isso coloca a empresa no nível Gold, avançando em direção ao Platinum.
A alegada economia de energia de 25% em comparação com projetos convencionais vem de vários fatores. Os sistemas UPS modulares com eficiência de 97,4% no nível do sistema reduzem as perdas de distribuição que, de outra forma, seriam de 15 a 20%. Os condicionadores de ar de precisão com compressores de velocidade variável e ventiladores EC ajustam a saída de resfriamento para corresponder à carga de calor real, em vez de funcionarem com capacidade fixa. E o layout físico – contenção de corredores quentes, espaçamento ideal de racks, piso elevado com ladrilhos perfurados de tamanho adequado – aborda o gerenciamento do fluxo de ar que prejudica muitas instalações que de outra forma seriam eficientes.
O portfólio de certificações da empresa inclui ISO 9001 (gestão da qualidade) e ISO 27001 (gestão da segurança da informação). Suas implantações em clientes incluem parcerias com Huawei, ZTE e Inspur, com instalações de exportação nos Estados Unidos, Reino Unido, Alemanha, França e Austrália.
Durante anos, a refrigeração líquida foi uma tecnologia de nicho para centros de supercomputação. Isso está mudando rapidamente.
Clusters de treinamento de IA usando NVIDIA H100 ou futuras GPUs B200 geram de 30 a 50 quilowatts por rack em configurações puramente refrigeradas a ar. Nessas densidades, o resfriamento do ar requer altas taxas de fluxo de ar – ventiladores barulhentos, racks profundos e controle térmico ainda marginal.
O resfriamento líquido direto no chip remove de 60 a 80 por cento do calor na fonte. Os chips ficam mais frios. Os fãs correm mais devagar. O ar condicionado ambiente lida apenas com o calor restante das fontes de alimentação, memória e outros componentes.
O ganho de eficiência é substancial. Instalações com resfriamento direto ao chip relatam valores de PUE de 1,1 a 1,2. As desvantagens são o custo de capital mais elevado, a gestão de fugas mais complexa e a necessidade de tratamento de água adequado às instalações.
O resfriamento por imersão total – submergindo servidores inteiros em fluido dielétrico – empurra o PUE abaixo de 1,1, mas permanece especializado. A maioria dos data centers comerciais adotará primeiro o resfriamento direto no chip e depois a imersão para zonas específicas de alta densidade.
A plataforma de data center SHANGYU inclui provisões para arquiteturas de refrigeração a ar e a líquido, reconhecendo que futuras implantações de alta densidade exigirão gerenciamento térmico baseado em fluidos, independentemente do projeto da instalação.
A maioria das equipes de operações de data centers ainda trabalha de forma reativa. Um alarme soa. Alguém investiga. Uma correção é aplicada. O ciclo se repete.
A transição para o gerenciamento preditivo requer três recursos que faltam em muitas organizações.
Dados de configuração completos.Saber o que há no data center — cada servidor, cada switch, cada PDU, cada unidade de resfriamento — é a base. Sem dados precisos do CMDB, o planejamento da capacidade é uma adivinhação.
Telemetria granular.A medição de potência no nível do rack é a mínima. A medição de energia por servidor é melhor. A atribuição de poder no nível da carga de trabalho é melhor, mas mais difícil de alcançar.
Análises que distinguem sinal de ruído.Um pico de temperatura em um rack pode significar falha no ventilador. Um pico de temperatura em metade do data center pode significar uma falha no chiller. O sistema precisa diferenciar e recomendar respostas de acordo.
A plataforma DCIM da SHANGYU fornece suporte a dispositivos SNMP e Modbus, interfaces de aplicativos Windows e baseadas na Web e integração com câmeras de rede para imagens acionadas por eventos. Os objetivos declarados são simples: reduzir o dispendioso tempo de inatividade, reduzir os custos operacionais diários através do controle ambiental completo e melhorar a visibilidade e a rastreabilidade do gerenciamento.
O consumo de energia dos data centers representa cerca de 1% da demanda global de eletricidade. Esse número parece pequeno até ser colocado em contexto. É aproximadamente equivalente ao consumo total de eletricidade do Reino Unido.
Mais importante ainda, a taxa de crescimento está a acelerar. As projeções da indústria mostram que a procura de energia nos centros de dados aumentará entre 10% e 15% anualmente até 2030, impulsionada pela IA, pela adoção da nuvem e pela expansão contínua de dispositivos conectados. A esse ritmo, os centros de dados consumiriam 3 a 4 por cento da electricidade global até ao final da década.
Os ganhos de eficiência que mantiveram o consumo de energia estável na década anterior vieram da virtualização de servidores (reduzindo a contagem de servidores físicos), da melhoria da eficiência das unidades (passando de discos giratórios para SSDs) e da ampla implantação de resfriamento gratuito (usando ar externo em vez de refrigeração mecânica). Essas frutas mais fáceis de alcançar foram em grande parte colhidas.
A próxima onda de eficiência virá do resfriamento líquido, da distribuição de alta tensão, dos controles de resfriamento otimizados por IA e – talvez o mais importante – de um melhor alinhamento entre a capacidade da infraestrutura e a carga real de TI. Essa última peça requer o tipo de visibilidade em tempo real e análise preditiva que os sistemas DCIM fornecem, mas poucas instalações utilizam plenamente.
Você conhece seu PUE real, não o número na folha de especificações?Se você não mediu na saída do UPS e na entrada do equipamento de TI, você não sabe. A diferença é sua sobrecarga real.
Seus sistemas de refrigeração estão brigando entre si?Em muitos data centers, as unidades CRAC são configuradas com faixas sobrepostas de temperatura e umidade. Uma unidade desumidifica enquanto outra umedece. Um esfria enquanto outro reaquece. Isto não é incomum. Também não é eficiente.
Qual é o consumo de energia ocioso dos seus servidores?Dados do setor mostram que os servidores corporativos típicos consomem de 30 a 40% de sua potência máxima quando não fazem nada. Desligar ou suspender servidores não utilizados é a medida de eficiência de maior ROI disponível. É também o mais esquecido.
Você poderia aumentar a temperatura do ar fornecido em dois graus sem violar as especificações do equipamento?Provavelmente sim. A maioria dos equipamentos é classificada para temperaturas de admissão de 25 a 27 graus. A maioria dos data centers funciona a 20-22 graus. Essa diferença de seis graus representa anos de energia de refrigeração desnecessária.
Quando foi a última vez que você validou a eficiência do seu UPS?A eficiência da placa de identificação é medida em plena carga com fator de potência perfeito. A eficiência real em carga parcial com fator de potência real pode ser de 5 a 10 pontos menor.