如何在提升智效的同时解决能耗难题?AI迎来“大考”

发布时间:2024-12-26 07:29:53 来源: sp20241226

  1.05万亿千瓦时(kW·h)!

  这是国际能源署(International Energy Agency,以下简称“IEA”)日前发布的《电力2024》报告中,对2026年全球数据中心的最高总用电量作出的预测。1千瓦时就是1度电,“超过1万亿度电”,根据报告的估算,这些电量大约是整个日本全年的用电量。

  数据中心、智算中心等算力基础设施是人工智能(AI)的数据中枢和算力载体。随着AI尤其是生成式人工智能(AIGC)和大模型技术的快速发展,算力需求激增,AI的能耗问题也越来越受到关注。在近段时间举行的多场国际会议上,一些科技巨头纷纷表达了对AI发展带来的能耗问题的担忧。

  如何在提升智效的同时解决能耗难题,对AI行业来说,是一场“大考”。

  AI在推理阶段的耗能不容忽视

  讨论AI耗能的问题,不可避免地要谈到AI大语言模型(以下简称“大模型”)。

  “生成式人工智能是当前AI技术发展的重点。”腾讯研究院资深专家王鹏在接受中青报·中青网记者采访时说。他表示,当前,生成式人工智能技术的基础就是以数据和算力堆叠为标志的大模型,其训练和应用需要大量的算力支持,“算力背后则是算力基础设施耗电所带来的巨大电能需求”。

  全国政协委员、中国科学院计算技术研究所研究员张云泉指出,大模型的参数和数据规模越大,其智能效果就越好。在大模型中,“Scaling Laws”(规模效应)意味着当参数和数据规模大到一定程度时,大模型的智能表现将出现跃升,也就是“智能涌现”。“目前我们还没看到‘智能涌现’的上限在哪。”

  “一般来说,参数量越大,大模型的算力消耗就越大,其消耗的电能就越多。”王鹏表示,因为还没达到上限,以OpenAI为代表的人工智能公司在“Scaling Laws”的驱使下,还在持续增加大模型的参数和数据规模,以求实现通用人工智能(AGI)的目标,造成短期内算力需求和电能需求的巨大提升。

  “因为GPT-3有1750亿个参数,训练用到了1024张英伟达A100芯片,所以业内将其称为‘千卡千参’。”商汤科技智能产业研究院院长田丰说,目前GPT-4、GPT-5等大模型都达到了“万卡万参”的规模,且训练模型所用芯片也从英伟达A100更新到英伟达H100、B200,“参数量的激增将导致能耗显著增加”。

  除了模型训练以外,AI在推理阶段的耗能也不容忽视。“推理即大模型响应用户需求的过程”,张云泉介绍,大模型单次响应用户需求的耗电量并不大,“但随着用户规模的增加,耗电量也将不断累积并增大。”

  近日,源自美国的一则“如果将10万块英伟达H00芯片部署在同一地区进行模型训练,会导致电网崩溃”的新闻引起社会关注。

  多位专家在接受记者采访时表示,AI导致电网崩溃的原因在于,大模型的训练是阶段性的工作,所用到的算力要集中在一个数据中心里,在有限时空范围内进行大模型训练,会给局部电网带来非常大的用电负荷。

  “稳定的电网系统中突然出现巨大负荷扰动,会对电网的稳定和安全产生影响。”张云泉指出,随着大模型参数和数据规模的进一步增加,AI的能耗问题将越来越突出,尤其是对于电力供应紧张的国家和地区。“长远来看,AI推理过程的耗能将越来越大;短期内,大模型训练的能耗则是最大的AI能耗增量。”

  在王鹏看来,与家庭用电量相比,AI的耗电量显得很大,但其在社会总用电量中的占比依然很小,“还远没有达到制造业用电的数量级”。

  解决方案:技术创新与新能源

  根据美国机构Uptime Institute的预测,到2025年,AI相关业务在全球数据中心用电量中的占比将从2%增加到10%;到2030年,智能计算的年耗电量将占全球发电总量的5%。

  “解决能耗问题,是AI技术发展的重要前提。”田丰对记者说,虽然目前AI的能源消耗还不至于引起大范围“电荒”,但随着AI的大规模应用,未来可能发生AI“缺电”的情况,需要寻找合适的解法,让有限的电力能源可以容纳更大的算力规模。

  通过研究和实践,人们对AI的了解逐渐增强,一系列解法随之而来。从需求角度看,优化大模型架构、提升芯片效率和算力效率等,被认为是降低AI能耗的有效途径。

  张云泉表示,首先,可以设计AI模型训练的专用芯片,其效率相较GPU(图形处理器,现常用于AI计算)提升了10倍以上;其次,可以优化AI模型的参数,很多小模型仅有几十亿的参数量,但已经实现了和大模型一样的效果;此外,还可以通过对推理过程进行优化压缩,设计专用推理芯片,进一步降低AI推理阶段的能耗。

  “大模型变小模型,目前降低能耗效果最好。”张云泉以微软4月底发布的自研小尺寸AI模型Phi-3为例介绍。据了解,Phi-3模型目前有3个版本,其中Phi-3 mini是一个拥有38亿参数的语言模型,可部署在手机上,根据实验和测试结果,其性能已经可以与GPT-3.5等大模型相媲美。

  在能源供应方面,诉诸多样化的新能源供给、依靠国家进行宏观调控与规划等举措,将有助于解决AI能耗问题。天使投资人、资深人工智能专家郭涛对记者表示,当前,新能源,包括太阳能、风能、水能等可再生能源,正逐渐成为数据中心的最佳能源选择。“如果没有足够的可再生能源来满足AI能耗的增长,可能会导致对化石燃料的依赖加剧,从而对环境造成负面影响。此外,数据中心还可以通过智能算法来优化能源使用效率,实现AI与电网的协同发展。”

  不少人工智能公司已经开始关注新能源。2021年,OpenAI首席执行官山姆·奥尔特曼向核聚变初创公司Helion Energy投入3.75亿美元;2024年3月,亚马逊云服务公司(AWS)收购美国宾夕法尼亚州一座数据中心园区,据了解,该园区就是从邻近的核电站获取电力。

  “解决AI耗能问题涉及到算力、电力等多个系统的协调与配合。”王鹏指出,一方面,要从AI本身去降低能耗,包括优化算法、降低模型参数、提高计算性能等;另一方面,整个能源系统也要积极响应AI的能耗需求。

  “源网荷储”一体化考虑

  新能源或将成为解决AI耗能问题的一把“钥匙”,这正好与我国此前提出的“东数西算”工程相契合。

  国家能源局的数据显示,2023年,我国可再生能源新增装机3.05亿千瓦,占全国新增发电装机的82.7%,占全球新增装机的一半;全国可再生能源发电量近3万亿千瓦时,接近全社会用电量的1/3。目前,我国已建成全球规模最大的电力供应系统和清洁发电体系,其中青海、内蒙古、宁夏等西北部地区则是清洁能源的“富矿”。

  2021年,我国提出实施“东数西算”工程,引导数据中心向西部资源丰富地区聚集,推动当地数据中心走向低碳、绿色、可持续,同时满足东部地区的算力需求。2022年2月,内蒙古、贵州、甘肃等8地启动建设国家算力枢纽节点,10个国家数据中心集群被写入工程总体“规划”,“‘东数西算’工程全面启动”。

  “大模型时代,‘东数西算’工程将对全国的电力需求和算力需求起到重要的宏观调控作用。”张云泉预计,未来将会有越来越多的大型算力中心或智算中心选址我国西部地区,“东数西训”(即东部地区的AI大模型,在西部地区进行训练——记者注)将成为AI与新能源协调发展的典型场景。但他强调,推动新能源更好地赋能AI发展,储能是一个需要解决的问题。

  “大规模储能的建设决定了新能源是否能更好地满足算力需求。”田丰也同意张云泉的观点。田丰指出,包括光电、风电等在内的新能源,具有间歇性发电的特点,需要依靠储能系统将多发的电及时存储起来,削峰调谷,以保证电网的供需平衡。

  国家能源局的最新数据显示,截至2024年一季度末,我国已建成投运的新型储能项目累计装机规模达到3530万千瓦,同比增长超过210%,其中10万千瓦以上的储能电站超5成,呈现集中式、大型化的发展趋势。

  在储能的建设上,王鹏着重强调了新能源汽车的分布式储能能力。“随着电池充放电次数和寿命不断提高,数亿辆电车利用峰谷电价差来储能并反向回供电网,基本可以实现零成本用车甚至盈利,同时也能解决电网的调峰问题。”

  此外,王鹏还认为要重新思考“数据网”和“电力网”的分布式联动与微观布局协同。他指出,为满足短期内快速增长的人工智能推理算力需求,除了在西部可再生能源丰富的地区布局大型算力中心,实现“东数西算”;也需要考虑在东部需求侧的数据中心和算力中心附近,积极布局分布式可再生能源,如与城乡建筑、农业设施等结合的分布式BIPV(光伏建筑一体化)、光储直柔一体化等。“而且还要‘源网荷储’一体化考虑,尽可能通过微电网实现就地峰谷平衡,减少弃风弃光。”

  “这需要电价政策、基础设施建设、政策支持和用户行为等多方面的配合。”在王鹏看来,整个算力网络、输电网络、分布式能源网络,与车辆(充电)网络的高度耦合,或许是解决我国未来AI能耗问题的关键。

  “在考虑投入和产出算总账的情况下,AI实际上进一步提高了社会的生产效率,降低了能耗。”田丰认为,AI作为新质生产力正在赋能经济社会发展,如今的AI大模型已经成为重要的基础科研设施,其训练中的投入,最终将为全社会带来新质生产力的红利。

  目前,在AI大模型的训练成本中,能源消耗成本的占比已经超过一半。田丰说,从基础科研的角度看,要继续加大对AI技术的投资,“现在是奋起直追的时候,不应该自束手脚”。具体到AI耗能方面,他建议,可以给予大模型训练一定的能源支持政策。

  中青报·中青网见习记者 贾骥业 记者 朱彩云 来源:中国青年报 【编辑:张燕玲】

选择用户
全部人员 全选 撤消
谢志刚
李岩
李海涛
谢志强
李亚琴
潘潇潇
杨亚男
高荣新
郑文静
金琳
张银波
张欣
陈曦
刘涛
王长青
高广柱
孙圆
行政专员
付雪枫
张雪莲
张璐
刘相群
张明璇
李静
孙静
王晨
赵夏
马洪亮
张兰
黄莉
李潍伊
常恩宁
侯昭宇
韩岩峰
冯亚红
林洋
陈静
刘婧
魏保国
唐彦秀
张楠
刘瑞萍
付严明
荣伶
马建国
邓爱青
系统管理员