近日,佐思分析師群討論了特斯拉汽車、AI和人形機器人。
爭論源于這個話題:復(fù)雜的Occupancy Network可以在10毫秒中計算完畢,也就是說Tesla Occupancy Network的輸出可以達到跟相機同樣的36Hz,而目前絕大多數(shù)Lidar的采集頻率只有10Hz————這個結(jié)論對嗎?fsd視覺處理能超過30hz?
于是討論開始了:
ZHOU:吹牛唄,某些人就是特粉,認為特斯拉天下無敵。LIDAR頻率可調(diào),5-30Hz都有。某些FLASH LIDAR,頻率可輕松做到1000Hz。特斯拉HW3.0那個DRAM才16GB,帶寬63.5GB/s,一個OCC模型至少20GB,根本裝不下,以這個帶寬,3Hz都做不到。要跑大模型,必須HBM,帶寬至少TB/s級。
YU:大模型是否上車這事,嚴重不同意老周觀點。我認為已經(jīng)上車了,采用壓縮處理方式。
ZHOU:這個大小是相對的,比如早期CNN模型參數(shù)只有幾百萬,那么幾千萬參數(shù)也可以說是大模型。但真正的大模型或者說主流的,參數(shù)都至少是1000億起。
ZHU:基于AIday 的介紹,這一系列復(fù)雜計算可以在10ms內(nèi)完成,意味著完全能跟上車載攝像頭36幀的拍攝頻率。
業(yè)界激光雷達的普遍水平為10Hz的掃描頻率,而問界M9激光雷達的掃描頻率高達20Hz,這意味著其能夠更快地更新環(huán)境信息,提供更實時、更準確的感知數(shù)據(jù)。這有助于提升問界M9在智能駕駛中的表現(xiàn),提高行駛的安全性和舒適性。
ZHOU:所謂知識蒸餾并不能壓縮大模型,它只是訓練方面無需太多的硬標簽。超過100億參數(shù)的大模型永遠上不了車。因為必須用HBM,HBM太貴了,做HBM必須臺積電2.5d或3D工藝,芯片價格不低于5000美元。多看幾篇頂尖論文就知道了。
ZHU:千億參數(shù)涌現(xiàn)智力,這個智力是人的較全面的智力。但如果處理專業(yè)方面的智力,的確是可以通過剪枝、知識蒸餾、量化等很多方法實現(xiàn);現(xiàn)在三星、蘋果已實現(xiàn)百億模型壓縮后在手機上流暢運行,今年有望實現(xiàn)千億模型壓縮后,在終端運行,帶來很好的體驗。
ZHOU:transformer和大模型一樣,永遠無法做骨干網(wǎng),車載領(lǐng)域骨干網(wǎng)還是CNN。手機可以運行百億參數(shù),那個是語言模型,不需要實時性,人可以等1-3秒,就算流暢。車不一樣,車要30Hz,高速60Hz,換句話說性能要是手機的100倍。
ZHU:其實駕駛并不需要多高的智力,也就是并不需要太復(fù)雜的信息處理,一個普通智力的人也能開好車,從宏觀的角度看,基于transformer的FSD大概率已經(jīng)實現(xiàn)了全自動駕駛了。我不是特粉,但客觀地覺得特斯拉做到了。
ZHOU:特斯拉芯片遠不如頂尖手機,像高通的gen 3
ZHU:在核心算法上,之前和幾位業(yè)內(nèi)人士溝通過,國內(nèi)確實落后5-10年,甚至更大
ZHOU:不僅是算力,關(guān)鍵還是存儲;核心算法,特斯拉也就是中等偏下。
ZHU:馬斯克本來就是OPEN AI的股東,而且還有很強大的人形機器人業(yè)務(wù);英偉達最早的AI服務(wù)器就是給了馬斯克的。
ZHOU:特斯拉沒有任何原創(chuàng)東西,骨干網(wǎng)regnet是facebook的,neck是谷歌的bi-fpn,head是谷歌的ViT-B做Bev transformer,至于OCC,它就沒有。這可都是AI DAY寫出來的。OCC只是個預(yù)測頭,硬要說特斯拉有,那就是15年前就有的mlp。