在前天,國內最高規格的AI產業盛會第七屆世界人工智能大會(WAIC 2024)開幕,展區已成“大模型”主場,各路玩家隔空斗法。
既有聞名業界的通用大模型大秀生成、理解能力,在金融、醫療等諸多領域施展拳腳的行業大模型,還有能直接部署在PC、服務器等邊緣設備的端側大模型效果驚艷。
可以看到從去年至今,大模型產業的發展焦點正在從技術突破向落地應用外延。一方面,通用大模型表現驚艷,另一方面,距離用戶更近且性能已經足夠強大的端側大模型呈現出規模化應用潛力。
在這之中,隨著技術的成熟和應用場景的拓展,端側大模型市場已經成為AI領域的一個重要增長點,而端側大模型走向落地部署背后的一個關鍵角色就是底層芯片玩家。
WAIC上,一家清華系GPGPU創企的展臺上,我們看到其AI加速卡AzureBlade K340l已經可以支撐大模型跑在AI PC等設備上,并已經適配Llama 3-8B、Stable Diffusion、通義千問等開源模型。
這家創企的技術實力不容小覷。本月初,芯動力科技團隊聯手帝國理工、劍橋大學、清華大學、中山大學等頂尖學府的計算機架構團隊,共同撰寫的論文《Circular Reconfigurable Parallel Processor for Edge Computing》(RPP芯片架構)成功被第51屆計算機體系結構國際研討會(ISCA 2024)的Industry Track收錄。
據了解,Industry Track的錄取接收率僅為15.3%。同時,芯動力科技還受邀在ISCA 2024會議上發表演講,與Intel、AMD等國際知名企業同臺交流。
在WAIC上,我們可以看到以芯動力科技為代表的國內AI芯片玩家,已經亮出了諸多技術成果與案例演示,為端側大模型部署落地裝上了加速引擎。
01.
“六邊形戰士”RPP架構
破局邊緣大模型落地
大模型加速落地應用現在已經成為共識,不過通用大模型很難理解企業的真實痛點,讓企業真正用上大模型實現降本增效是當前的重中之重。
但相比于面向消費者的AI工具,企業對于大模型能力的要求更高,除了大模型本身的性能表現需要足夠優越外,還有更為重要的幾點就是數據安全、響應夠快,這也是跑在云上的大模型缺少的。
因此邊緣大模型脫穎而出,因為邊緣設備距離企業的業務或者用戶本身距離更近,且能夠支持本地私有化部署保證用戶的數據安全。與此同時,底層的AI芯片就稱為AI落地邊緣端的必要條件。
這也導致邊緣大模型部署對AI加速卡的特性提出了更高要求。因為邊緣端往往只有一個獨立設備,因此就需要芯片需要同時兼顧體積小、性能強、功耗低。當下Llama系列、通義千問等開源模型,已經在較小的參數規模下達到了較好的性能,能夠實現很好的文升文、文生圖效果。這也為大模型在端側落地提供了機會。
還有更為重要的一點是,大模型的技術突破仍在不斷革新。為了讓大模型在資源有限的設備上部署,大模型量化部署精度正在從8bit向4bit支持,大模型的快速演變對芯片研發的長周期,大投入提出了不小的挑戰。
這些難題在對芯片的性能及靈活性提出不小挑戰的同時,也是大模型落地的必要條件。對于眾多專用芯片來講,這意味著需要開展全新的芯片設計工作,而對芯動力科技可重構并行處理器架構(RPP)來講,則僅需進行一次軟件開發即可。在面對邊緣大模型落地所面臨的難題時,芯動力科技的RPP架構展現出其固有的天然優勢。
在生成式AI日新月異的應用場景中,唯一不變的就是變化本身。芯動力構建的通用性生態決定了,未來若出現除Transformer以外的新型算法基底,RPP架構將能夠迅速完成算法的兼容與優化,而無需改變硬件架構。這使得RPP架構擁有更持久的生命力和更廣闊的市場前景。
RPP架構是針對并行計算設計的芯片架構,芯動力將其稱作“六邊形戰士”。這一架構既結合了NPU的高效率與GPU的高通用性優勢,更具備DSP的低延時,可滿足高效并行計算及AI計算應用,如圖像計算、視覺計算、信號處理計算等,大大提高了系統的實時性和響應速度。
芯動力首款基于可重構架構的GPGPU芯片RPP-R8每顆芯片內含有1024個計算核,相比傳統GPU架構在同樣的算力占用更小的芯片面積,實現了低功耗和高能效的有效平衡。RPP-R8除了具備專用芯片所沒有的通用編程性,面積效率比可達到同類產品的7~10倍,能效比也超過3倍。