伴隨著人工智能(AI)技術(shù)的高速發(fā)展,包括OpenAI公司CEO山姆·奧特曼在內(nèi)的業(yè)內(nèi)人士都開始擔(dān)心,它將被能源問題“卡脖子”,因?yàn)锳I當(dāng)前面臨的現(xiàn)實(shí)難題之一就是能源和智能的轉(zhuǎn)化效率。被稱為“硅谷鋼鐵俠”的特斯拉CEO馬斯克近日也警告稱,“AI算力瓶頸是可以預(yù)見的”,未來可能沒有足夠的電力能滿足AI對算力的需求。有沒有辦法緩解AI發(fā)展與算力消耗海量資源之間的矛盾?《環(huán)球時報》記者就此采訪了業(yè)內(nèi)專家。
訓(xùn)練AI為何會消耗海量資源
隨著OpenAI公司發(fā)布的聊天機(jī)器人ChatGPT的爆紅,各國都加快了AI大模型的訓(xùn)練,需要的算力也急速增加。馬斯克最近在公開采訪中表示,現(xiàn)在AI對算力的需求差不多每半年就會增加10倍,AI算力的瓶頸是可以預(yù)見的:“一年前,短缺的是芯片。然后下一個短缺的將是電力。當(dāng)芯片短缺緩解之后,明年可能就會出現(xiàn)電力將不足以運(yùn)轉(zhuǎn)這些芯片。”
AI與人爭資源。本版配圖由AI合成
為何訓(xùn)練AI對于電力的消耗如此龐大?這是因?yàn)榇笳Z言模型的規(guī)模實(shí)在太大。OpenAI的大語言模型GPT-3擁有1750億參數(shù),而GPT-4擁有2萬億參數(shù)。要訓(xùn)練這種規(guī)模的模型,需要在大規(guī)模數(shù)據(jù)集上反復(fù)迭代,每次都需要計算和調(diào)整其中數(shù)百億乃至數(shù)千億個參數(shù)。為完成如此龐大的計算,需要動用由大量服務(wù)器組成的數(shù)據(jù)中心。例如GPT-4完成一次訓(xùn)練需要約3個月,使用約2.5萬塊英偉達(dá)A100圖形處理器(GPU)。以每塊GPU的功耗400瓦計算,GPT-4一次訓(xùn)練就要耗費(fèi)2.4億度電。
據(jù)《環(huán)球時報》記者了解,數(shù)據(jù)中心通過網(wǎng)絡(luò)提供高效的數(shù)據(jù)計算和存儲服務(wù),是承載算力的基礎(chǔ)設(shè)施。隨著傳統(tǒng)科學(xué)與工程計算對算力的需求持續(xù)增長以及人工智能應(yīng)用對算力需求的急劇上升,預(yù)計未來5年內(nèi)智能算力規(guī)模的復(fù)合增長率將高達(dá)52.3%。據(jù)統(tǒng)計,2022年中國數(shù)據(jù)中心耗電量達(dá)2700億度,占全社會用電量約3%。預(yù)計到2025年,全國數(shù)據(jù)中心用電量占全社會用電量的5%。2030年全國數(shù)據(jù)中心耗電量接近4000億度。
除了芯片運(yùn)算時的耗電量外,數(shù)據(jù)中心運(yùn)行時還需要耗費(fèi)大量淡水用于冷卻服務(wù)器產(chǎn)生的熱能。益企研究院創(chuàng)始人張廣彬告訴《環(huán)球時報》記者,數(shù)據(jù)中心消耗的水,主要用于散熱(冷卻)環(huán)節(jié)。就是通過水的蒸發(fā),換取數(shù)據(jù)中心內(nèi)部溫度的降低。美國科羅拉多大學(xué)的研究表明,每當(dāng)ChatGPT回答20-50個問題,就需要消耗500毫升水資源用于冷卻計算設(shè)備和為數(shù)據(jù)中心供電的發(fā)電廠。OpenAI公司今年年初發(fā)布的“文生視頻”大模型Sora以驚人的視覺沖擊力令全球矚目,但相關(guān)評估認(rèn)為,為此消耗的算力約是生成文字對話的千倍以上,它在峰值運(yùn)算時消耗的電力和水資源更是天文數(shù)字。
對于AI與人爭奪資源的擔(dān)憂正在快速增加。谷歌發(fā)布的2023年環(huán)境報告顯示,該公司2022年耗水量高達(dá)2545萬立方米,相當(dāng)于8500個標(biāo)準(zhǔn)游泳池。到2027年,全球范圍內(nèi)的AI需求可能需要消耗66億立方米的水資源,幾乎相當(dāng)于美國華盛頓州全年的取水量。美國AI企業(yè)的數(shù)據(jù)中心從科羅拉多河取水計劃遭到當(dāng)?shù)孛癖姷牡种啤9雀柙跒趵缒喜拷?shù)據(jù)中心、微軟在智利建立數(shù)據(jù)中心等海外項目也引發(fā)了當(dāng)?shù)厝说目棺h。
降低散熱能耗,有多條技術(shù)路線
業(yè)內(nèi)常用PUE值作為評價數(shù)據(jù)中心能源效率的指標(biāo),它是數(shù)據(jù)中心消耗的所有能源與IT設(shè)備能耗的比值,PUE值越接近1,說明能效水平越好。傳統(tǒng)風(fēng)冷數(shù)據(jù)中心PUE值在1.5左右,意味著IT設(shè)備自身能耗占比約為六成,以制冷為主的其他能耗約四成。因此降低散熱能耗,不但是數(shù)據(jù)中心最直接的節(jié)能方向,還可節(jié)省大量用于散熱的水資源。
臉書、谷歌等公司紛紛選擇在北極圈附近修建大型數(shù)據(jù)中心,借助低溫的自然環(huán)境,可節(jié)省大量的冷卻電力。中國近年推動的“東數(shù)西算”戰(zhàn)略,在貴州、青海、內(nèi)蒙古等地修建數(shù)據(jù)中心,在很大程度上也考慮了這方面的因素。在海底數(shù)據(jù)中心方面,微軟早在2015年就將試驗(yàn)性的數(shù)據(jù)中心建在蘇格蘭周邊的北海海域水下,但沒有大規(guī)模推廣。
中國海南海底數(shù)據(jù)中心于2022年12月成功將全球首個海底數(shù)據(jù)中心核心裝備“海底數(shù)據(jù)艙”放入海底,開啟了全球商業(yè)海底數(shù)據(jù)中心運(yùn)營的先河。業(yè)內(nèi)人士介紹說,“以陸地1萬個機(jī)柜為例,同等算力的海底數(shù)據(jù)中心,每年能節(jié)省用電總量1.75億度、節(jié)省淡水15萬噸。數(shù)據(jù)艙內(nèi)恒壓恒濕無氧無塵的環(huán)境還會讓服務(wù)器的可靠性大幅提升。”
但這些方案受到自然環(huán)境、網(wǎng)絡(luò)技術(shù)等約束較大,而且會讓數(shù)據(jù)中心遠(yuǎn)離主干網(wǎng)絡(luò),影響運(yùn)維的便捷性。對于常規(guī)地面數(shù)據(jù)中心而言,更可行的方案是將風(fēng)冷模式轉(zhuǎn)為液冷模式,即用特制液體取代空氣作為冷媒為發(fā)熱部件進(jìn)行散熱,主要包括冷板式“非接觸液冷”以及浸沒式和噴淋式“接觸液冷”技術(shù)。
曙光數(shù)創(chuàng)股份有限公司董事長任京暘接受《環(huán)球時報》記者采訪時表示,國家相關(guān)部門多次出臺有關(guān)政策,推動數(shù)據(jù)中心等設(shè)施的節(jié)能減排,如明確要求到2025年,全國新建大型、超大型數(shù)據(jù)中心PUE值降到1.3以下。從曙光實(shí)踐來看,最先進(jìn)且成熟度最高的液冷技術(shù)是“浸沒式相變液冷方案”,能讓數(shù)據(jù)中心PUE值最低降至1.04,這一結(jié)果在世界范圍來看,是處在第一梯隊的。它在完全釋放計算設(shè)備性能的同時,可極大提高設(shè)備穩(wěn)定性。但最顯著的一點(diǎn)還是可極大降低數(shù)據(jù)中心設(shè)備的散熱能耗,且不受地域、環(huán)境等影響。
張廣彬表示,液冷技術(shù)是當(dāng)前數(shù)據(jù)中心節(jié)能的熱門方向。他透露,液冷技術(shù)還有一個光看PUE值體現(xiàn)不明顯的優(yōu)勢。在IT設(shè)備能耗中,包括了服務(wù)器風(fēng)扇的用電和電源模塊轉(zhuǎn)換的損耗,其中風(fēng)扇的用電是大頭,能占到服務(wù)器總用電的10%甚至更多。而浸沒式液冷理論上可以完全不用風(fēng)扇,冷板式液冷的風(fēng)扇只需要負(fù)責(zé)20%-30%的散熱量。所以采用液冷技術(shù)的數(shù)據(jù)中心PUE值可能沒有很明顯下降,但實(shí)際更省電了。
任京暘還介紹說,在節(jié)水方面,曙光最新研發(fā)的“液冷節(jié)水型室外機(jī)”,采用離心霧化等新型散熱技術(shù),在西北限水、缺水地區(qū)部署,相比傳統(tǒng)閉式冷卻塔設(shè)備可節(jié)水70%-80%。該方案通用于風(fēng)冷、液冷等多模式數(shù)據(jù)中心,可最大程度支持我國西北缺水地區(qū)建設(shè)中大型節(jié)水?dāng)?shù)據(jù)中心。
超算互聯(lián)網(wǎng)是未來方向之一
張廣彬認(rèn)為,數(shù)據(jù)中心基礎(chǔ)設(shè)施層面節(jié)能減排的傳統(tǒng)手段,隨著PUE值逐漸逼近1,已快趨近極限了。“采用各種節(jié)能措施,把供電損耗、制冷開銷等環(huán)節(jié)的浪費(fèi)控制在很低的水平之后,剩下的就是必需的業(yè)務(wù)需求了。不能單純指責(zé)數(shù)據(jù)中心耗能,這應(yīng)該是信息社會的必需開銷。總不能通過削減真實(shí)的應(yīng)用需求,來達(dá)到節(jié)能的目標(biāo)。”他認(rèn)為,未來數(shù)據(jù)中心節(jié)省耗能仍然大有可為,包括對上層軟件和應(yīng)用進(jìn)行優(yōu)化,減少不必要的算力使用量。“如果通過優(yōu)化大模型,讓60億參數(shù)的模型能達(dá)到原來130億參數(shù)模型的效果,那就可以減少GPU和服務(wù)器的使用量,最終降低數(shù)據(jù)中心層面的用電量”。
技術(shù)的進(jìn)步也能在一定程度上緩解外界對于AI能耗的擔(dān)憂。英偉達(dá)首席執(zhí)行官黃仁勛6月2日宣布,新一代AI芯片架構(gòu)在性能提升30倍的同時,能耗只有上一代產(chǎn)品的1/25。美國波士頓大學(xué)工程教授科斯昆認(rèn)為,在AI巨頭完成大模型的測試后,AI能耗問題可能就沒有那么突出了。屆時將確定哪些領(lǐng)域需要復(fù)雜模型,哪些領(lǐng)域只要簡單模型就夠了。“人們開始思考這個問題:‘我是否真的需要用大錘子敲擊這個小釘子,也許只用一把螺絲刀就夠了?’”