
AI的能源账单:大模型正在吃掉电网,绿色计算如何让万亿算力市场可持续¶
如果你觉得每个月电费账单已经够吓人了,那你应该看看AI公司收到的那种。
训练一次GPT-4级别的模型,耗电量大约相当于3000个中国家庭一年的用电量。而推理——也就是每次你跟ChatGPT聊天时背后的运算——虽然单次微不足道,但乘以每天数十亿次的调用量,累积起来是一个让电网运营商夜不能寐的数字。
国际能源署(IEA)的数据显示,2025年全球数据中心的电力消耗已经超过400太瓦时(TWh),比2022年翻了一倍多。其中AI工作负载的占比从2022年的不到5%飙升到了接近30%。到2030年,如果不加干预,仅AI一项就可能吃掉全球电力的5%。
这不是科幻小说的设定。这是正在发生的现实。
一座数据中心,一个城市的用电量¶
先建立直观感受。一座中等规模的AI训练集群,搭载大约10万张H100 GPU,满负荷运行时功耗超过70兆瓦。70兆瓦是什么概念?一个拥有20万人口的中国县城,夏季高峰用电负荷也就差不多这个数。
而这样的集群,全球正在建好几十个。
微软在2024年签下了一份协议,重启宾夕法尼亚州的三哩岛核电站——没错,就是1979年发生过严重核事故的那个——专门为AI数据中心供电。甲骨文宣布正在设计一座需要超过1吉瓦电力的数据中心,由三座小型模块化核反应堆(SMR)提供动力。
核电站给AI供电。这件事本身就足够说明问题了。

更值得关注的是分布。AI数据中心的用电不是均匀分布的,而是高度集中在少数几个区域。弗吉尼亚州北部的"数据中心巷"(Data Center Alley)每天处理全球约70%的互联网流量,当地电力公司Dominion Energy的AI相关用电申请已经排到了2030年之后。同样的情况也发生在北京周边的怀来、张北以及贵州贵安新区——中国的数据中心重镇。
电网扩建的速度远远跟不上数据中心的建设速度。这不再是技术问题,而是一个基础设施瓶颈。
为什么大模型这么"能吃"¶
表面上看,芯片的能效在不断提升。NVIDIA从A100到H100再到B200,每代产品的每瓦算力确实在飞跃。黄仁勋有句话说得很直白:"买的越多,省的越多。"
但杰文斯悖论(Jevons Paradox)在这里精准应验了:效率提升并没有让总能耗减少,反而因为成本下降、可用性提高,需求爆炸式增长,总能耗反而飙升。
每一代新模型的参数规模都在膨胀。GPT-3有1750亿参数,GPT-4据传超过1.7万亿。训练所需的浮点运算次数从10^23变成了10^25以上,对应的电力消耗自然也跟着指数级增长。

还有推理这一端。很多人以为推理很"轻",但实际情况是,随着推理时计算(inference-time compute)技术的普及——让模型在回答之前进行多轮内部推理、搜索、验证——单次推理的算力消耗正在快速追赶训练。OpenAI的o系列模型、DeepSeek-R1等推理模型,单次回答可能需要进行数万甚至数十万次额外的内部计算。
一个简单的ChatGPT对话可能消耗约0.001度电,但一次复杂的推理模型任务可能消耗0.01到0.1度电。如果你每天跟AI聊100次,一个月下来,仅你一个人的AI用电量就超过一个节能冰箱的月耗电量。
所以当你听到Sundar Pichai说谷歌的碳排放自2019年以来增加了48%,或者看到微软承认其2030年碳负排放目标因AI扩张而"面临挑战"时——这就是原因。
绿色计算的三条出路¶
好消息是,行业并没有坐以待毙。三条技术路线正在同时推进。
第一条:更节能的芯片。
NVIDIA的Blackwell架构(B200/B100)相比Hopper(H100)能效提升了约4倍。但这不只是NVIDIA的游戏。Groq的LPU(语言处理单元)采用确定性架构,在推理任务上能效比传统GPU高出数倍。Cerebras的晶圆级芯片通过消除芯片间通信开销,在特定工作负载上实现了惊人的能效比。
中国的创业公司也在入场。寒武纪、壁仞科技、摩尔线程等国产GPU厂商虽然在绝对性能上还有差距,但在单位功耗推理效率上正在快速追赶。这是一个值得关注的变数——如果国产芯片能在能效上实现突破,对整个行业的电力布局都会产生影响。
第二条:从芯片到系统的全栈优化。
裸芯片的效率只是一部分。更重要的改进发生在系统层面。
液冷正在从"可选"变成"标配"。传统的风冷数据中心PUE(电力使用效率,越接近1越好)通常在1.4-1.6之间,而液冷可以将PUE压到1.1以下。这意味着用于散热的电力消耗从40-60%骤降到10%以下。
算力调度也在进化。过去数据中心的服务器平均利用率只有30-40%——大部分机器在空转。现在AI工作负载的特性(批处理、可调度、容错性高)天然适合弹性调度。Google DeepMind曾用AI优化自身数据中心的冷却系统,省下了40%的冷却能耗。
一个更激进的思路是"算力跟随电力":把训练任务调度到可再生能源充沛的时间和地点。比如白天在太阳能充沛的亚利桑那州训练,晚上切换到水电丰富地区的集群。这需要跨区域的算力网络,技术上可行,但需要行业级的调度标准。
第三条:小模型的逆袭。
过去两年的主流叙事是"参数越多越好"。但这个叙事正在被颠覆。
Phi-3、Llama-3-8B、Qwen-2.5-7B这些小模型在特定任务上的表现已经逼近甚至追平了大得多的前辈。微软的Phi-4仅14B参数就在数学推理和代码生成上超过了GPT-4o的某些版本。
DeepSeek-V4虽然是"大"模型,但其MoE(混合专家)架构意味着实际推理时只激活参数的一小部分,等效计算量远小于同等规模的密集模型。这种"看起来很大、跑起来很小"的设计思路,正在成为行业主流。
还有量化技术的进步。FP8、INT4甚至更低的精度正在从研究走向生产,在精度损失几乎不可感知的前提下,将推理能耗降低50-80%。
不只是环保,更是经济学¶
你可能觉得"绿色计算"听起来像是企业社会责任部门的话题。但现实是,它正迅速变成一个纯粹的商业问题。
电费正在成为AI公司的最大单一运营成本之一。以GPT-4级别的模型为例,一次完整的训练运行仅电费就可能超过1亿美元。推理的成本虽然分摊在每次调用上,但当你的产品有数亿日活用户时,每节省1%的推理能耗就意味着每年节省数千万到数亿美元。
这意味着什么?意味着能源效率将直接决定AI产品的定价权和利润率。
毫不夸张地说,在接下来的五年里,谁能在单位能耗上产出更多的"智能",谁就能赢得AI商业化的下半场。这不是一个可有可无的ESG指标——这是核心竞争力。
我们离"绿色AI"还有多远¶
现实地说,我们离真正可持续的AI还有相当距离。当前数据中心使用的可再生能源,有很大比例依赖RECs(可再生能源证书)进行"绿电抵消",而非直接使用绿色电力。真正的24/7无碳能源(24/7 CFE)覆盖率仍然很低。
但如果把时间线拉长,技术发展的方向是明确的:芯片能效持续提升、液冷全面普及、小模型和MoE架构降低门槛、核能(特别是SMR)提供稳定基荷——这些趋势叠加在一起,有可能在2030年前实现AI算力增长与碳排放的脱钩。
AI不会停下,电力也不会凭空产生。但人类有办法让两者之间的等式变得不那么令人焦虑。
下一次你跟ChatGPT聊天的时候,不妨想一下:在你得到答案的那一秒,你刚才"点亮"了几盏灯泡。
封面及配图由 AI 生成