2024年10月9日,聯發科正式推出兩款芯片,一款是手機領域是天璣9400,另一款就是汽車座艙芯片CT-X1,這也是聯發科與英偉達合作的首款芯片。
來源:網絡
聯發科在發布會上毫不掩飾,宣稱性能超越高通SA8295有30%。不過聯發科還是一貫風格,未透露太多CT-X1的細節。當然CT-X1是代號,型號可能是MT8678。
來源:網絡
我們來將CT-X1即MT8678與高通SA8295做一個對比,當然這有些不公平,畢竟高通SA8295是大約2021年底推出的芯片,與CT-X1有著三年的時間差。
來源:佐思汽研
CPU方面,相差有18%,但聯發科的CT-X1基礎頻率低不少,功耗比SA8295要降低不少。聯發科的CT-X1與天璣9400的CPU配置基本沒差別,天璣9400也是一個X925超大核、三個X4超大核、四個A720大核的全新架構。X925提升到3.62GHz,比天機9300最高頻率提升了幾乎400MHz,也就是大約11%。X4核心的頻率從3.25GHz略微提高到3.3GHz,四個A720核心的頻率從2.0GHz大幅提高到2.4GHz。X925、X4、A720核心分別搭配2MB、1MB、512KB二級緩存,與上一代相比,容量都翻了一倍。整體配備12MB三級緩存,容量增加50%,以及10MB系統緩存車規版大幅度降低頻率,降低功耗。實際CPU性能可以輕松超過SA8295 30%。
來源:佐思汽研
對CPU來說最關鍵的數據有兩個,一個是IPC也就是解碼位寬,另一個就是cache容量,在被高通拋棄以及蘋果步步緊逼下,ARM不再緩慢擠牙膏,一步到位推出了X925,解碼位寬高達10位,是X1的兩倍。Cache則是X1的10倍以上。足以媲美蘋果的A18。
Cortex-X925實際就是Cortex-5
來源:Chips & Semi News
SA8295用的是ARM在2020年的架構,和聯發科的CT-X1有著4年的差距。
X4與X925核心對比
來源:ARM
X925性能大幅度提升。
來源:ARM
后端方面
來源:ARM
X925做AI運算時與X4的對比
來源:ARM
目前,所有的AI大模型(即LLM,語言大模型)都是Transformer架構,Transformer架構保留了部分RNN串行計算的特征,尤其適合CPU運算,還有些矩陣矢量乘法運算,CPU效率遠高于GPU,通常這些運算會退回到CPU中進行,與大多數人想象的不同,最高效率對應transformer架構的是CPU而非GPU,只不過CPU的核心數量很難像GPU那樣做到數百乃至數千個,論到單個核心的算力,CPU遠在GPU之上,這也是英偉達要做自己的CPU的主要原因。順便說一句,英偉達也將在明年推出基于Cortex-X925的AI PC用CPU。
GPU方面推測和天璣9400一樣采用了Immortalis-G925,還是12核心,在1612MHz下可以爆發4952GFLOPS的算力,幾乎相當于中低檔次桌面級獨立顯卡。用在車上,頻率自燃要大幅度降低來降低功耗,3000GFLOPS的算力也是相當驚人的,與SA8295完全一個水平。
大模型時代,存儲帶寬比算力重要,存儲帶寬決定了大模型參數下限,這點聯發科CT-X1有著壓倒性優勢,也是聯發科敢于說支持130億參數大模型的底氣所在。
三星對GPT大模型workload分析
來源:三星
上圖是三星對GPT大模型workload分析,在運算操作數量上,GEMV(General Matrix Vector Multiplication, 矩陣向量乘法)所占的比例高達86.53%,在大模型運算延遲分析上,82.27%的延遲都來自GEMV,GEMM(General Matrix Multiplication, 矩陣乘法)只占2.12%,非線性運算也就是神經元激活部分占的比例也遠高于GEMM。
三星對GPU利用率的分析
來源:三星
從上圖可以看出在GEMV算子時,GPU的利用率很低,一般不超過20%,換句話說80%的時間GPU都是在等待存儲數據的搬運。還有如矩陣反轉,嚴格地說沒有任何運算,只是存儲行列對調,完全是存儲器和CPU在忙活。
AI芯片的性能是一個屋頂模型Roofline Model
來源:網絡
Roofline Model可以看出平均帶寬需求和峰值計算能力像天花板一樣是整個系統計算的能力上限,以計算強度上限Imax為界,劃分出AI芯片的兩個瓶頸區域,即圖中橘色的內存受限區(Memory Bound)和圖中藍色的計算受限區(Compute Bound)。存儲決定了下限,計算決定了上限。因為 Decoding 階段 Token 逐個處理,使用 KV Cache 之后, Multi-Head Attention 里的矩陣乘矩陣操作全部降級為矩陣乘向量即GEMV。此外,Transformer 模型中的另一個關鍵組件 FFN 中主要也包含兩個矩陣乘法操作,但 Token 之間不會交叉融合,也就是任何一個 Token 都可以獨立計算,因此在 Decoding 階段不用 Cache 之前的結果,但同樣會出現矩陣乘矩陣操作降級為矩陣乘向量。Prefill階段則是GEMM,即矩陣與矩陣的乘法。GEMV是訪存密集型操作,性能完全取決于存儲帶寬。
如果聯發科CT-X1與天璣9400的存儲系統一樣,那么CT-X1應該支持LPDDR5X 10667Mbps,史上首次突破10Gbps大關,實際上這就是LPDDR6。
LPDDR6基礎速率10.667Gbps,最高可達14.4Gbps。
來源:Synopsys
最后是NPU,這可能是聯發科和英偉達合作的產物,算力高達46TOPS,比Mobileye的EyeQ6H還要高出12TOPS,做艙駕一體完全沒問題。
座艙芯片卷出新高度,主要也是這么多年以來高通一直在吃老本,缺乏新產品支撐,但高通建立強大的生態系統和口碑,最重要的是消費者對高通品牌已經等同于高端先進的理解,聯發科還需要在品牌宣傳和生態系統方面多下功夫。