AI算力需求对智算中心供配电冲击有多大?“东盟版算力危机”苗头隐现!
发布时间:
2025-08-15
当今世界正处于人工智能(AI)驱动的技术变革浪潮中,各国和企业纷纷投入巨资扩建算力基础设施,数据中心已成为数字经济时代的“新型关键基础设施”。进入2025年,随着全球生成式AI(GenAI)应用的持续爆发,AI大模型训练和推理需求呈现了巨大跃升。与此同时,AI训练带来的供配电系统问题同样不可小觑。
当今世界正处于人工智能(AI)驱动的技术变革浪潮中,各国和企业纷纷投入巨资扩建算力基础设施,数据中心已成为数字经济时代的“新型关键基础设施”。进入2025年,随着全球生成式AI(GenAI)应用的持续爆发,AI大模型训练和推理需求呈现了巨大跃升。与此同时,AI训练带来的供配电系统问题同样不可小觑,正如Meta在Llama3论文中提到的,其拥有2.4万个H100集群(IT容量约30MW)在训练时,遇到了电力不稳定的持续挑战。
国际能源署(IEA)统计显示,全球已部署的数据中心装机容量从2005年的21.4吉瓦增至2021年的66.9吉瓦,预计2025年将攀升至114.3吉瓦,比20年前增长逾5倍。这一爆发式增长带来了巨大的能源消耗挑战——预计2025年数据中心耗电量将达485.4太瓦时,占全球用电量的1.7%。

2005–2025年全球数据中心装机容量增长趋势(来源:IEA,Visual Capitalist)
AI算力打破百年电力供应稳定关系
给数据中心供电满足AI算力需求是一个异常复杂的系统工程。在全球交流电力系统中,各国住宅用电通常是单相交流电,但数据中心等工业用电通常采用三相电,每相电线又包含三根导线,三个振荡周期彼此错开运行。然而,电压和频率是电力系统中极易受影响的特性。如果电力供应和需求不平衡,电压和频率就会偏离设定值。供应超过需求时,电压和频率高于基准值;供应低于需求时,则低于基准值。仅仅10%的电压或频率波动就可能烧毁电机,跳闸,并使电子设备损坏。
因此,过往全球百年,各国电网运营商的主要任务是保证电力质量,突显电网稳定性依赖于供需的稳定平衡,以及失衡的风险。一直以在,家庭用电需求相当可预测,大型用电负荷,如钢铁制造、芯片制造厂以及云数据中心通常都会产生稳定负荷。但生成式 AI的兴起彻底改变了这一现状。
智算中心进行AI训练时负载剧烈波动成因分析
在智算中心中的AI算力系统通常采用并行计算的方式运行,一次大规模GPU训练运行可能涉及数万乃至数十万个GPU同时工作。这种模式与传统的计算模式截然不同:从谷歌云发布的以下图表可以看出,智算中心与云数据中心的负载波动差异约为15倍,前者波动范围从1.5兆瓦到高达15兆瓦。

智算中心在进行AI训练时,数万个GPU(GPU)可能同时增加或减少功耗,例如,由于所有GPU等待checkpointing或collective communications完成,或整个训练作业启动或关闭。都会导致智算中心功耗瞬间波动,达到数十兆瓦(megawatts)量级,从而严重考验电网的承载能力。
负载波动如此之大的原因有很多,包括:
♦ 批处理过程中的毫秒级功率波动:在处理一个训练批次的过程中,矩阵计算会产生功率峰值,而数据传输和同步等较轻负载的操作则会导致功率下降。
♦ checkpoint和restore操作 (通常持续几毫秒):在进行checkpoint操作期间,负载可能降至极低水平。
♦ 同步 (最多几秒钟):当集群规模达到数十万级别时,AllReduce (一种用于在分布式系统中聚合数据的算法) 操作容易受到网络问题的干扰,有时会导致 GPU计算单元出现长达几秒钟的空闲状态。
♦ 训练运行结束后:如果在一次大规模训练运行结束后,没有立即投入新的工作负载充分利用GPU算力,就会导致巨大的负载骤降。
“东盟版算力危机”隐现苗头
东南亚正迅速成长为全球数字基础设施版图中的一支重要力量。随着区域内互联网用户激增、数字经济蓬勃发展,以及各国推动产业数字化转型,东南亚数据中心市场近年呈爆炸式增长态势。目前,东南亚各国正呈现出数据中心项目“百舸争流”之势。一方面,新加坡、马来西亚和印尼等领先市场继续扩容;另一方面,泰国、越南、菲律宾等后来者快速跟进,一批具有战略意义的大型项目相继落地。综合来看,东南亚数据中心项目布局呈现出多点开花、竞相发展的局面。
值得注意的是,“东盟版算力危机”也隐现苗头:供需失衡成为区域共同挑战,在能源保障和绿色可持续方面压力并存。一方面,AI应用和云服务需求激增使数据中心建设热潮此起彼伏,电力供应瓶颈与算力设施“AI就绪度”不足可能导致区域算力缺口持续扩大;但另一方面,各国已承诺碳减排目标,需要平衡数据中心发展的能源代价。
东南亚一些国家电网原本裕度有限,大规模数据中心项目集中上马,对电力基础设施提出巨大考验。对此,各国主要通过两种方式应对:其一,引入私营和外资电力投资,加快电源和输电项目建设。例如菲律宾从2022年起招标绿色能源项目,有142家企业成功入围,为包括数据中心在内的新兴负荷提供可再生电力。其二,通过技术手段降低数据中心对公用电网的冲击,如推进园区自备电站。马来西亚柔佛有数据中心自建燃气轮机电站确保供电连续性。
智算中心对电网的冲击日益加剧
一直以来,电力供应都是通过同步变化进行管理。但要在几分之一秒内管理数百兆瓦的电力波动,对电力运营商而言是前所未有的挑战。通常情况下,亚秒级的电压和频率平衡是由系统惯性(system inertia)来维持的。传统电力发电机(electric generators)是大型旋转磁体,其旋转质量的惯性可以吸收电力供需之间的小幅波动,但这会产生额外的热量并降低效率。
而当前越来越多的挑战源于不断变化的发电结构。越来越多的电力来自间歇性可再生能源,尤其是风能和太阳能。这些系统并不产生与电网同步的交流电,而是产生直流电(DC),再通过逆变器转换成交流电(AC),因此也给智算中心供配电带来了更多的问题。
在国内层面,以“东数西算”工程为代表的国家级算力网络正加快推进,各地政府、运营商和互联网巨头纷纷布局万卡乃至超万卡级智算集群,带来了数千兆瓦的新增电力需求。同时,《关于推动新型信息基础设施协调发展有关事项的通知》《数据中心绿色低碳发展专项行动计划》等政策相继出台,明确提出新建及改扩建项目要严格执行节能审查、绿电占比超80%、PUE≤1.2等要求 。在此背景下,智算中心供配电系统正从“支撑系统”转变为制约算力发展的“瓶颈环节”,亟需在高压化、直流化、模块化和智能化等方向上实现跨越式升级。
总之,在全球数字化浪潮和人工智能技术加速演进的时代背景下,智算中心日益成为各国新型信息基础设施建设的核心枢纽。随着大模型训练、生成式AI推理及高性能计算等应用需求的爆发式增长,单机柜功率密度迅速攀升,算力负载对电力系统的挑战空前严峻。从国际视角来看,高功率密度与高可靠性供电架构已成为智算中心竞争力的重要一环;而在中国“双碳”战略约束下,绿色低碳、能源协同也被赋予了新的内涵。面对能源结构转型与算力基础设施扩容的“双重驱动”,如何在保障超高可用性的同时兼顾能效与成本,已成为行业亟待破解的发展命题。
随着AI驱维、数字孪生与预制化技术成熟,未来供配电系统将由“被动支撑”升级为“主动赋能”,成为算力网络稳定性与效能提升的核心引擎。客户采购决策已从关注设备可靠性,转向系统级能效、数字运维与全生命周期成本管控,对“一站式”集成交付与运维保障提出更高要求。
----------------------------------------------------------------------------
信息来源:
相关新闻