從2023年的ChatGPT,到2024年的Sora,AI和大模型正以不可思議的發展速度顛覆著業界的認知,但大模型的火熱登場,也進一步引爆了智能算力的需求。傳統算力時代,算力需求每18-20個月翻一倍,在深度學習出現之后,算力需求每6個月翻一倍,而到了大模型時代,對智能算力的需求幾乎是每年數百倍的增長。
根據中國信通院發布的《中國算力發展指數白皮書(2023年)》顯示,在目前的算力規模中,通用算力規模占比達74%,智能算力規模占比達25%,同比增加60%,成為當前算力快速增長的驅動力,而預計未來幾年,智能算力的需求將比當前呈現上百倍的增長。
但新的難題也由此產生,在智能算力的1.0時代,主要是采用垂直一體式的方案,針對性地滿足高性能計算、人工智能、大數據計算等不同的應用負載,通用性和兼容性比較低;而在智能算力的2.0時代,則出現了異構智算融合的趨勢,即將不同架構的芯片平臺、不同的算法模型以及數據集最大化融合,讓用戶可以根據業務場景和計算任務選擇最適合的算力方案。在這樣的背景下,如何把智能算力的效率發揮到極致,如何提升數據中心的整體能效,讓智能算力的價值得到最大化體現呢?
在日前舉辦的聯想創新科技大會(2024 Lenovo Tech World)上,聯想正式發布聯想萬全異構智算平臺,該平臺集成了聯想為滿足AI應用大潮所打造的五大創新技術,可以說為AI時代大模型訓練和推理構建出了穩定高效的基礎設施算力底座,也讓智能算力能夠真正“用得上”、“用得好”、“用得精”。
與此同時,聯想還與中國智能計算產業聯盟共同宣布,發起成立異構智算產業生態聯盟,聯合產業頭部生態伙伴共建聯想萬全生態,助力中國智算生態繁榮發展與創新。
毫無疑問,站在AI產業大變革的今天,聯想基于自身在數據中心基礎設施的持續的創新和投入,以及最佳實踐和經驗,推出聯想萬全異構智算平臺,并發起成立異構智算產業生態聯盟,相信這將會進一步釋放出異構智算的“乘數效應”,為千行百業創造出更多具有想象空間的新業態、新服務和新模式,激發更大的新質生產力。
跨越智能算力“四座大山”
隨著大模型時代的到來,可以發現智能算力與產業的融合正變得越來越緊密,從智慧醫療,智慧金融,智慧城市再到無人駕駛等等,智能算力已經開始滲透到千行百業的方方面面,推動著“算力基建化”的步伐。
也正因此,去年底國家六部門聯合印發的《算力基礎設施高質量發展行動計劃》中,就提出到2025年,計算力方面,算力規模超過300 EFLOPS,其中智能算力占比要達到35%,這也代表著我國的算力產業步入了高速發展的新階段,智能算力更成為了數字經濟“主航道”中最為核心的驅動力。
聯想集團副總裁、中國基礎設施業務群總經理陳振寬
在聯想集團副總裁、中國基礎設施業務群總經理陳振寬看來,智能算力的火爆背后,同樣也為數據中心基礎設施帶來了諸多的挑戰,主要體現在以下幾個方面:
挑戰一,場景日益豐富,算力復雜多元,如何選擇和匹配合適的算力?目前已經有五種以上主流算法框架和十種以上算子庫來支持不同的應用場景。同時,不同類型的GPU、服務器、存儲和網絡組成了上百種不同的集群配置,特別是場景、算法和集群之間的選擇和驗證,不但技術繁雜而且周期長,這都給用戶帶來了極大的壓力。
挑戰二,從千卡到萬卡,如何減少故障恢復時間,提升集群的可用性?以千卡訓練集群為例,目前千卡集群每月至少有15次的故障斷點,在常規的斷點續訓手段下,每次恢復訓練需要幾個小時,產生的額外費用超過百萬元,而隨著AI集群規模從千卡到萬卡,故障中斷次數及恢復所需時間呈指數級增長。
挑戰三,智能算力基礎設施的建設成本極高,如何改善和最大化AI算力利用率?AI對算力的需求是無窮盡的,然而隨著集群集成的芯片越來越多,我們不得不應對算法效率不高、計算資源不足、互聯帶寬受限等眾多技術挑戰。數據顯示,當前業內MFU(模型算力利用率)普遍在30%左右,頂尖的集群利用率也只能做到50%,因此這就需要行業突破和解決GPU卡利用率、集群通訊效率、AI故障恢復、算法匹配度等系統性問題。
挑戰四,在“雙碳”政策的驅動下,如何最大化提升數據中心的整體能效?一直以來,數據中心作為“能耗大戶”,其建設和發展過程中也帶來了巨大的能耗挑戰。特別是在當前算力升級帶來的能耗“飆升”的情況下,如何通過先進的散熱技術,突破芯片在系統中的散熱瓶頸,同時提升能效,降低數據中心PUE將“刻不容緩”。
由此可見,由大模型興起所產生的巨量算力需求讓本就供需不平的算力產業結構進一步“承壓”,特別是如何跨越智能算力面臨的“四座大山”已成為整個業界的新挑戰和新課題。
夯實大模型時代“算力底座”
也正是洞察到這種變化和痛點,聯想正式發布集五大技術創新為一體的聯想萬全異構智算平臺,該平臺可幫助行業用戶跨越智能算力面臨的重重挑戰,真正讓千行百業在智能算力時代“用得上”、“用得好”、“用得精”,具體來看:
針對算力匹配方面,當下異構智算融合已是大勢所趨,一是CPU,GPU,DPU,NPU等處理器的異構;二是AI算力集群,科學計算集群和通用計算集群的異構,唯有做好異構算力協同工作,才能有效支持復雜計算任務所需要的綜合計算。
而聯想萬全異構智算平臺搭載的“多維智能算力匹配魔方”技術,構建了AI場景與算法與集群硬件三者匹配關系的算力魔方知識庫,可標識AI場景、算法、集群配置這三者的匹配關系。更重要的是,“算力匹配魔方”可針對不同場景,可以全自動規劃和調度最佳算法和集群配置,用戶只需輸入場景和數據,即可自動加載最優算法和調度最佳集群配置,由此為用戶跳過繁雜的算力選擇和驗證。
提升算力利用率和可用性方面,在AI基礎設施中,要提高計算效率有兩大關鍵要素: 一是提升算力的利用率,二是讓算力持續可用。因此,在聯想萬全異構智算平臺五大創新技術中,有四項都是聚焦在了提升算力利用率和可用性的算法創新上。
其中,GPU內核態虛擬化算法技術,由聯想研究院開發的GPU驅動層的內核態虛擬化算法,可最大化挖掘處理器潛力,讓vGPU利用率從80%提升到95%;此外,聯想集合通信算法庫技術,能夠自動感知集群網絡拓撲,并選擇和采用經聯想增強的集合通信算法使數據傳輸在最佳路徑。以千卡規模集群為例,采用集成了聯想集合通信庫的聯想萬全異構智算平臺做管理調度,可使網絡通信效率提升超10%,并且集群規模越大,效果越顯著;而AI高效斷點續訓技術,其核心能力是“以AI預測AI”訓練故障,在斷點前針對故障特征做優化備份,在斷點后可極速恢復。以千卡訓練集群為例,目前聯想能將斷點續訓恢復時間縮減到分鐘級,不僅能夠大幅提升訓練效率,還可以幫助用戶節省額外支出百萬元/月。
針對集群的調度管理,聯想萬全異構智算平臺內置了AI與HPC異構集群超級調度器,這是破局算力孤島,打開集群共享之門的“關鍵鑰匙”,該“調度器”最為精髓之處就是做出能指揮雙類型調度的最精簡架構,在AI的K8S調度和HPC的Slurm調度之上,通過切換“語言”的方式分別指揮AI和HPC調度器,1小時內自動完成跨集群的資源調度和共享,使得用戶可以充分利用基礎設施的每一分算力。
而面向未來,聯想也將挑戰超過萬卡規模集群的通訊算法優化,挑戰秒級的斷點續訓,深入研究相變式液冷技術,布局模塊化液冷數據中心,而這些核心技術創新,也將助力AI算力朝著更強大、更穩定、更高效和更綠色的方向高質量發展。
客觀地說,當前業界各種智算平臺已經對異構算力的管理和調度開展了不同技術方向的探索,市場上有些不同的異構智算管理平臺,但聯想萬全異構智算平臺仍有三個獨特的優勢:
得益于聯想在智算和超算領域的長期耕耘,其AI與HPC異構集群超級調度器屬于業內首創,是聯想在異構智算領域打造的“獨門秘籍”; 同時,聯想分鐘級斷點續訓的故障預測機制,同樣也是歷經多年研發的,是分鐘級斷點續訓能夠實現的關鍵技術,同樣在業界是“獨一無二”的;不僅如此,相比市場上的其他異構管理平臺,聯想萬全異構智算平臺納管豐富的多的異構生態,和提供更深入全面的集群管理,這些關鍵技術的創新都為夯實大模型時代的“算力底座”提供了堅實的基礎,背后也體現出了三重全新的價值。
一是,用得上,指的是聯想萬全異構智算平臺將算力管理與調度,數據治理與模型優化、訓練精調和推理應用開發等多層次的能力實現了全面集成,能夠向下納管豐富的算力生態,向上對接為各類場景優化的模型及AI工具集,因此可為用戶提供更簡單、更高效、更穩定的算力體驗。
二是,用得好,如果我們從用戶視角出發來看,不論是模型開發,推理服務開發,還是AI應用開發,計算效率就是業務的根基,高效計算才能讓AI應用的迭代部署跟上市場需求,才能控制業務TCO成本使AI創作的投入產出合理化。為此,聯想萬全異構智算平臺始終將突破計算效率的瓶頸作為平臺持續追求的差異化價值。無論是GPU內核態虛擬化算法技術、聯想集合通信算法庫技術還是異構集群超級調度器等,核心都是最大化提升用戶的算力利用率和可用性,讓用戶“用得好”AI算力。
三是,用得精,則是聯想萬全異構智算平臺不但打造了一個能夠高度自動化完成AI全流程開發的平臺,同時也是可輸出高可用算力并不斷突破計算效率瓶頸的利器,借助這個平臺,行業用戶可自動完成AI計算并發布模型或發布推理服務。同時,平臺也為專業的AI開發用戶留有手動深入調整計算過程的空間,包括工具和模型的選擇,算力配置的調整,對任務的定制化監控等,這樣就能使得每種資源都能在最適合的任務上發揮最大效能,真正讓用戶可以更加“精細化”管理AI算力資源,進一步實現“降本增效”的價值。
釋放異構智算“乘數效應”
值得一提的是,在本次聯想創新科技大會2024上,聯想還與中國智能計算產業聯盟共同宣布,發起成立異構智算產業生態聯盟。據了解,異構智算產業生態聯盟框架由AI芯片層、AI設備與系統層和AI平臺與應用層,能夠實現從IaaS平臺、AI訓練與推理到行業場景解決方案的全覆蓋。