梦入神机,手机推荐排行榜,欢乐颂小说在线阅读

AI大模型的熱潮不斷，預(yù)計(jì)未來(lái)十年，AGI時(shí)代即將到來(lái)。但目前支撐AI發(fā)展的GPU和AI專(zhuān)用芯片，都存在各種各樣的問(wèn)題。那么，在分析這些問(wèn)題的基礎(chǔ)上，我們能不能針對(duì)這些問(wèn)題進(jìn)行優(yōu)化，重新定義一款能夠支持未來(lái)十年AGI大模型的、足夠靈活通用的、效率極高性能數(shù)量級(jí)提升的、單位算力成本非常低廉的、新的AI處理器類(lèi)型？

01.首先分析場(chǎng)景特點(diǎn)，做好軟硬件劃分

1.1 一方面，AI處理器存在問(wèn)題

差不多是從2015年前后，開(kāi)始興起了專(zhuān)用AI芯片的浪潮。以谷歌TPU為典型代表的各種架構(gòu)的AI專(zhuān)用芯片，如雨后春筍般涌現(xiàn)。但從AI落地情況來(lái)看，效果并不是很理想。這里的主要問(wèn)題在于：

AI芯片專(zhuān)用設(shè)計(jì)，把許多業(yè)務(wù)邏輯沉到硬件里，跟業(yè)務(wù)緊密耦合；但業(yè)務(wù)變化太快，算法不斷更新，芯片和業(yè)務(wù)的匹配度很低。

AI算法是專(zhuān)用的，面向具體場(chǎng)景，比如人臉識(shí)別、車(chē)牌識(shí)別，各種物品識(shí)別等。綜合來(lái)看，算法有上千種，加上算法自身仍在快速演進(jìn)，加上各種變種的算法甚至超過(guò)數(shù)萬(wàn)種。

用戶的業(yè)務(wù)場(chǎng)景是綜合性的，把業(yè)務(wù)場(chǎng)景比做一桌宴席，AI芯片就是主打的那道主菜。對(duì)AI芯片公司來(lái)說(shuō)，自己只擅長(zhǎng)做這一道菜，并不擅長(zhǎng)做其他的菜品，更不擅長(zhǎng)幫助用戶搭配一桌美味可口、葷素均衡、營(yíng)養(yǎng)均衡的宴席。

1.2 另一方面，GPU也存在問(wèn)題

NVIDIA的GPU是通用并行處理器：

性能效率相對(duì)不高，性能逐漸見(jiàn)頂。要想算力提升，只能通過(guò)提升集群規(guī)模（Scale Out，增加GPU數(shù)量）的方式。

增加集群規(guī)模，受限于I/O的帶寬和延遲。一方面，集群的網(wǎng)絡(luò)連接數(shù)量為O(n^2)，連接數(shù)量隨著集群規(guī)模的指數(shù)級(jí)增加；另一方面，AI類(lèi)的計(jì)算任務(wù)，不同節(jié)點(diǎn)間的數(shù)據(jù)交互本身就非常巨大。因此，受阿姆達(dá)爾定律影響，I/O的帶寬和延遲，會(huì)約束集群規(guī)模的大小。（在保證集群交互效率的情況下，）目前能支持的集群規(guī)模大約在1500臺(tái)左右。

還有另外一個(gè)強(qiáng)約束，就是成本。據(jù)稱(chēng)GPT5需要5萬(wàn)張GPU卡，單卡的成本在5W美金左右，再加上其他硬件和基礎(chǔ)設(shè)施已經(jīng)運(yùn)營(yíng)的成本。僅硬件開(kāi)銷(xiāo)接近50億美金，即350億RMB。這對(duì)很多廠家來(lái)說(shuō)，是天文數(shù)字。

1.3 問(wèn)題的核心：芯片的靈活性要匹配場(chǎng)景的靈活性

首先，仍然是從我們之前很多文章中提到的這個(gè)“從軟件到硬件的典型處理器劃分圖”開(kāi)始分析。

指令是處理器軟件和硬件的媒介：有的指令非常簡(jiǎn)單，就是基本的加減乘除等標(biāo)量計(jì)算；有的指令非常復(fù)雜，不是純粹的向量、矩陣或多維張量計(jì)算，而是各種維度計(jì)算再組合的一個(gè)混合的宏指令，或者說(shuō)是一個(gè)算子甚至算法，就對(duì)應(yīng)到一條（單位計(jì)算）指令。 AI專(zhuān)用處理器是一種DSA，是在ASIC基礎(chǔ)上具有一定的可編程能力。性能效率足夠好，但不夠靈活，不太適合業(yè)務(wù)邏輯和算法快速變化的AI場(chǎng)景。而GPU足夠靈活，但性能效率不夠，并且性能逐漸達(dá)到上限。從目前大模型宏觀發(fā)展趨勢(shì)來(lái)看：

Transformer會(huì)是核心算法，在大模型上已經(jīng)顯露威力。未來(lái)模型的底層算法/算子會(huì)逐漸統(tǒng)一于Transformer或某個(gè)類(lèi)Transformer的算法。從此趨勢(shì)分析可得：AI場(chǎng)景的業(yè)務(wù)邏輯和算法在逐漸收斂，其靈活性在逐漸降低。

此外，AI計(jì)算框架也走過(guò)了百家爭(zhēng)鳴的階段，目前可以看到的趨勢(shì)是，PyTorch占據(jù)了絕大部分份額。這說(shuō)明整個(gè)生態(tài)也在逐漸收斂，整個(gè)系統(tǒng)的迭代也在放慢。

這兩個(gè)趨勢(shì)都說(shuō)明了，未來(lái)，“專(zhuān)用”的AI芯片會(huì)逐漸地綻放光芒。當(dāng)然了，作為AI芯片的公司，不能等，而是需要相向而行：

需要定義一款，其性能/靈活性特征介于GPU和目前傳統(tǒng)AI-DSA處理器之間的，新型的通用AI處理器。“比GPU更高效，比AI芯片更通用”。

通用性體現(xiàn)在兩個(gè)方面：

一方面，處理器的通用性。能夠適配更多的算法差異性和算法迭代，覆蓋更多場(chǎng)景和更長(zhǎng)的生命周期。

另一方面，面向AGI通用人工智能。不再是專(zhuān)用AI的“場(chǎng)景千千萬(wàn)，處理器千千萬(wàn)”，架構(gòu)和生態(tài)完全碎片；而是一個(gè)通用的強(qiáng)人工智能算法，一個(gè)通用的強(qiáng)處理器平臺(tái)，去強(qiáng)智能化的適配各種場(chǎng)景。

02.大核少核 or 小核眾核？

CPU是大核，但通常一個(gè)芯片里只有不到100個(gè)物理核心；而GPU是小核眾核的實(shí)現(xiàn)，目前通常在上萬(wàn)個(gè)核左右；而傳統(tǒng)AI芯片，通常是大的定制核+相對(duì)少量核（100核以內(nèi)）的并行。

此外，一個(gè)很重要的現(xiàn)象是，GPU核，不再是之前只有CUDA核的標(biāo)量處理器，而是增加了很多Tensor核的類(lèi)協(xié)處理器的部分。新的GPU處理器不再在處理器核的數(shù)量上增加，反而把寶貴的晶體管資源用在單個(gè)核的協(xié)處理器上，把單核的能力做更多的強(qiáng)化。因此，新型通用AI芯片需要：

在目前工藝情況下，并行的單芯片處理器核心（GA，通用AI處理器核心）數(shù)量在500-1000之間比較合適；

單個(gè)GA采用通用高效能CPU核（例如定制的RISC-v CPU）+強(qiáng)大的Tensor協(xié)處理器的方式。

03.極致擴(kuò)展性，多層次強(qiáng)化內(nèi)聯(lián)交互

欧美日韩国产精品-欧美日韩国产精品综合-欧美日韩国产伦理-欧美日韩国产码高清综合人成-黄色网页在线观看-黄色网页在线播放

如何定義一款新的AI處理器？AI芯片案例分析

每日福利更多>>