国产三级在线观看免费,国产欧美一区二区三区片

自研芯片三國殺，頭部智駕新戰(zhàn)場，蔚小理誰強？

2024-10-11 09:01

XEV研究所

關(guān)注

作者 | 肖恩

編輯 | 德新

在8月小鵬MONA M03的發(fā)布會上，何小鵬宣布自研的圖靈芯片流片成功，這使其成為繼蔚來之后第二家正式公布自研智駕芯片的主機廠。

早在去年的9月份，蔚來就對外公布了自研的智駕芯片——神璣NX9031，號稱1顆更比4顆強，并在7月份的蔚來科技日上宣布流片成功。

理想內(nèi)部也在推進自研芯片項目，代號「舒馬赫」，雖然項目開始的時間相對晚一些，但是預(yù)計也將于年內(nèi)流片。

除此之外，比亞迪、Momenta也有自研智駕芯片項目正在進行。

芯片是個高投入、長周期的行業(yè)，研發(fā)周期最少需要2 - 3年。除了高昂的研發(fā)成本外，后續(xù)還要投入巨額的流片費用，單次流片的成本至少需要幾千萬元，如果要設(shè)計一顆5nm的芯片，最終的研發(fā)成本可能高達20 - 30億元。

除了高額的投入之外，還要面對技術(shù)上的風(fēng)險，流片失敗、良品率低、性能不達標等都是第一次踏足芯片行業(yè)的公司可能會碰到的問題。

盡管如此，國內(nèi)智駕行業(yè)的頭部公司卻都不約而同地走上了自研芯片的道路。

這篇文章，你將看到：

新勢力執(zhí)著自研芯片的原因；

特斯拉、英偉達設(shè)計大算力芯片的兩種不同路徑；

為什么一代FSD算力不大，卻能跑端到端大模型；

蔚來神璣一顆頂四顆，到底是多少算力？

1顆小鵬圖靈芯片，相當(dāng)于3顆OrinX。

01 新勢力為什么執(zhí)著自研智駕芯片？

最直接的原因是成本。

以市場上高階智駕車型普遍使用的英偉達Orin X為例，剛發(fā)售時單顆售價超過500美金，即使現(xiàn)在也需要400美金一顆，支持城區(qū)高階輔助駕駛的功能至少需要2顆Orin X，而像蔚來這樣全系標配4顆Orin X的車型，僅僅采購芯片的成本就超過了1萬元。

一顆高階自研芯片的研發(fā)投入雖然超過20億元，如果生命周期的用量超過100萬片，那么單片的成本可以降至2000元。

按照蔚來公布的信息，一顆自研的NX9031能夠替代4顆Orin X，即使一車使用2片，也能有上千元的成本節(jié)約，而隨著出貨量的提升，自研芯片的成本優(yōu)勢會進一步放大。

因此對于蔚來和小鵬這樣高階智駕芯片需求量大的車企來說，自研芯片是一筆非常劃算的「生意」。

第二個重要的原因是性能。

特斯拉作為智駕行業(yè)的先驅(qū)，也經(jīng)歷了智駕芯片從外采到自研的過程。

在最早的Model S上使用的是Mobileye的EyeQ芯片，由于Mobileye是業(yè)內(nèi)出名的「小黑盒」，特斯拉很快就轉(zhuǎn)向了英偉達，而隨著算法的不斷進化，英偉達的芯片已經(jīng)無法滿足特斯拉的要求，因此自研芯片就順理成章。

特斯拉第一代的FSD芯片于2019年量產(chǎn)，單顆算力達到了72 TOPs。那時英偉達的Orin X還未上市，F(xiàn)SD芯片的性能秒殺市面上所有的智駕芯片。

從這時候開始，特斯拉的算法加速進化，從Transformer到占用格柵網(wǎng)絡(luò)，再到現(xiàn)在的端到端大模型，每一次升級都帶領(lǐng)智駕行業(yè)向前躍進。

在算法上，國內(nèi)的智駕公司一直緊跟特斯拉的步伐。

進入端到端的階段后，各家對算法也有著自己的理解，蔚來利用生成式AI設(shè)計了NWM世界模型，理想為了解決端到端大模型可解釋性差的問題，將架構(gòu)升級為「端到端+VLM」，而小鵬則和特斯拉一樣堅信純視覺才是智能駕駛的終局，發(fā)布了下一代AI鷹眼純視覺方案。

但是要最大限度的發(fā)揮算法的能力，必須要有和軟件深度融合的硬件，自研芯片則是最理想的方式。

還有一個原因是出于供應(yīng)鏈的考慮，2020年正是美國開始全面制裁華為的時候，經(jīng)過幾輪的制裁，華為無法生產(chǎn)高端芯片，手機業(yè)務(wù)受到重創(chuàng)。

彼時半導(dǎo)體市場還面臨缺芯的問題，芯片的供應(yīng)非常不穩(wěn)定，經(jīng)歷過這段時間的主機廠都深有體會，為了保證生產(chǎn)有時會需要數(shù)倍的價格來采購芯片。

芯片是智駕的核心，從這時候開始以智駕為核心的主機廠意識到自研芯片的戰(zhàn)略意義，紛紛開始推進自研的計劃。

除了上面幾個原因之外，中國芯片產(chǎn)業(yè)的成熟也是主機廠開始自研芯片的基礎(chǔ)，特別是芯片設(shè)計行業(yè)，華為海思幾乎以一己之力將中國高端芯片的設(shè)計能力提高到了世界領(lǐng)先的水平。

雖然受到美國的制裁后，海思的芯片之路遇到了很大的困難，但是卻為中國的芯片設(shè)計行業(yè)輸送了大量的人才，蔚來和小鵬的自研芯片項目的負責(zé)人均來自華為海思，可謂是中國芯片行業(yè)的黃埔軍校。

02 強大的芯片是「設(shè)計」出來的

在對比各家自研芯片的參數(shù)之前，我們需要了解一些智駕芯片的基礎(chǔ)知識。

芯片是半導(dǎo)體行業(yè)中一個非常廣義的概念，CPU、MCU、GPU、PMIC等等這些都屬于芯片中的一種，而我們通常所說的智駕芯片則屬于SOC（system on chip），也就是系統(tǒng)級芯片。

它集成了CPU、GPU、NPU、ISP、和內(nèi)存等多個模塊，是一種集成度非常高的芯片。

圖片來源：特斯拉

以特斯拉的FSD芯片為例，內(nèi)部集成了一個12核的CPU、一個GPU、兩個NPU以及ISP和解碼器等模塊。

其中ISP和解碼器負責(zé)處理輸入的視頻數(shù)據(jù)，而CPU、GPU和NPU則是SOC中負責(zé)計算任務(wù)的模塊，但是所處理的任務(wù)類型不同。

算力

在討論智駕芯片性能強弱的時候，我們習(xí)慣用算力單位TOPs來衡量，它的含義是每秒執(zhí)行1萬億次操作。

例如英偉達的OrinX，被公認是目前市場上性能最強的智駕芯片，單顆芯片的最大算力達到了254 TOPs，而特斯拉的FSD芯片單顆算力只有72 TOPs，從這個數(shù)字上看，OrinX的算力確實很強，那么是否意味著TOPs越大的智駕芯片，性能就越好呢？

評價一個芯片性能的時候有很多算力單位，比如DMIPs、TFLOPs、TOPs。

但我們習(xí)慣用TOPs來衡量智駕芯片的性能，這是因為現(xiàn)在自動駕駛算法對算力消耗最大的部分是感知端的CV算法，CV算法的核心是卷積神經(jīng)網(wǎng)絡(luò)（CNN），它的本質(zhì)是累積累加運算MAC（Multiply Accumulate），而TOPs可以很好地評價芯片在1s內(nèi)完成MAC操作的次數(shù)。

CPU

CPU也就是我們常說的中央處理器，能處理各種不同類型的任務(wù)和指令，它的設(shè)計遵循馮·諾依曼架構(gòu)，這個架構(gòu)主要由運算器、控制器、存儲器、輸入設(shè)備、輸出設(shè)備等五個主要部分組成。

每個核心都可以獨立處理指令，但是CPU采用的是串行運算方式，每個CPU核心一次只能執(zhí)行一個計算指令，完成后才能進行下一個計算。

上圖是一個4核CPU的典型架構(gòu)，每個核心都可以獨立處理指令，但是CPU采用的是串行運算方式，每個CPU核心一次只能執(zhí)行一個計算指令，完成后才能進行下一個計算。

它的特點是通用性和邏輯控制力好，能夠處理各種復(fù)雜的計算需求，但是缺點也很明顯，不擅長處理計算量大的并行計算。

在CPU上我們經(jīng)常會聽到X86和ARM的概念，他們分別對應(yīng)了兩種CPU架構(gòu)，X86采用的是CISC復(fù)雜指令集，性能強大但是功耗較高，而ARM采用的RISV精簡指令集，追求的是性能和功耗的平衡。

因此，移動端和車端的CPU一般都是采用ARM架構(gòu)。

最后聊一下CPU的算力單位DMIPs（Dhrystone Million Instructions Per Second）。

由于不同的指令集和架構(gòu)對CPU的性能都有影響，因此不能簡單的用CPU的主頻來評價，Dhrystone是一個基準測試程序，通過測量CPU每秒能運行多少次Dhrystone程序來評價不同CPU的性能，例如100DMIPs代表每秒能運行1億次Dhrystone程序。

自動駕駛中的傳感器融合、路徑規(guī)劃和決策等算法都需要強大的CPU性能支持。

GPU

CPU能處理復(fù)雜的計算任務(wù)但是不擅長并行計算，為了解決這個問題，GPU出現(xiàn)了，最開始是為了處理圖形任務(wù)而設(shè)計的，它擁有成百上千個計算單元，每個單元能獨立執(zhí)行指令，能夠并行處理大量的計算任務(wù)。

上圖是一個GPU的典型架構(gòu)，和CPU相比它的邏輯控制單元和緩存都比較簡單，大部分空間都留給了計算單元。

因此GPU適合處理大量并行計算任務(wù)，但是不能處理復(fù)雜的指令，更適合處理邏輯簡單、類型統(tǒng)一的任務(wù)，例如圖形處理和渲染。

由于圖形處理和渲染大需要大量的浮點運算，因此GPU的算力一般用TFLOPs來衡量。英偉達最新一代的顯卡RTX 4090的算力大約為48 TFLOPs，作為對比OrinX的算力是5.2 TFLOPs。

和圖形處理類似，神經(jīng)網(wǎng)絡(luò)的訓(xùn)練也需要大量的并行計算，因此GPU的架構(gòu)也非常適合用于深度學(xué)習(xí)的計算。

OrinX的架構(gòu)就是以GPU為核心，可以實現(xiàn)int8精度下最大254TOPs的算力。

NPU

既然GPU可以很好地處理AI算法中的矩陣和卷積運算，為什么還需要NPU呢？

GPU雖然性能強大，但是也有功耗高、成本昂貴等問題，而NPU是專為深度學(xué)習(xí)和AI算法設(shè)計的專用處理器，在運行神經(jīng)網(wǎng)絡(luò)算法時，NPU比GPU計算速度更快，功耗更低。

但是NPU的缺點也很明顯，它的通用性較差，能處理的計算任務(wù)類型有限，在軟件生態(tài)上也相對封閉。

而GPU已經(jīng)發(fā)展了很多年，有更為完善的軟件生態(tài)，特別是英偉達的CUDA架構(gòu)，有非常豐富的應(yīng)用和第三方的工具支持，開發(fā)人員可以非常方便地使用C/C++語言在這個架構(gòu)上編寫程序，運行在英偉達支持CUDA的芯片上。

一個有趣的現(xiàn)象是，英偉達作為AI時代的領(lǐng)軍者，在SOC中并沒有使用NPU的架構(gòu)，而是使用GPU作為AI計算的核心，但是蘋果和高通的SOC設(shè)計中都加入了單獨的NPU模塊。

因為英偉達的GPU在性能上足夠強大，不需要單獨增加NPU模塊來。

但是對于其他廠商來說，無法使用英偉達這樣性能強大的GPU內(nèi)核，因此單獨設(shè)計一個NPU模塊來處理AI算法則是更好的選擇。

ISP

ISP(Image Signal Processor)，即圖像信號處理器，主要作用是對前端圖像傳感器輸出的信號做后期處理，主要功能有線性糾正、噪聲去除、壞點去除、內(nèi)插、白平衡、自動曝光控制等。

ISP分為外置和內(nèi)置兩種，現(xiàn)在大部分自動駕駛芯片都將ISP集成到了SOC內(nèi)部，攝像頭的原始圖像經(jīng)過ISP處理后，輸入給感知算法。

一般會用像素處理能力來評價一個ISP的性能。

例如OrinX內(nèi)置的ISP模塊處理像素的速度是1.85 Gpixel/s，pixel/s越高代表能處理的攝像頭像素越高，在不考慮圖像壓縮的情況下，3.2 Gpixel/s可以處理大約一億像素。

另一個非常重要但是容易被忽略的參數(shù)是位寬，它代表了每個像素包含的數(shù)據(jù)量，位寬越大單個像素里包含的數(shù)據(jù)量越大，可以表示的顏色也越多。

例如位寬為8bit時，一個像素可以表示256種顏色，而24bit時則可以表示1600萬種顏色。

內(nèi)存帶寬

最后聊一下內(nèi)存帶寬，這是我們在討論智能駕駛芯片性能時經(jīng)常忽略的一個參數(shù)。

神經(jīng)網(wǎng)絡(luò)算法的本質(zhì)是矩陣的乘積累加運算，這個過程中需要頻繁的讀取數(shù)據(jù)，使用的算法模型參數(shù)越多，在內(nèi)存中需要保存的數(shù)據(jù)量越大。

不論是智能駕駛還是人工智能，都在走向大模型的技術(shù)路線，對于存儲帶寬的要求也會越來越高。

自動駕駛領(lǐng)域非�；馃岬�Transformer模型，它的參數(shù)量在10億左右，而GPT-4的參數(shù)規(guī)模則超過1.5萬億。

我們在手機領(lǐng)域常見的內(nèi)存方案是LPDDR，這是一種用于移動端的低功耗內(nèi)存技術(shù)，目前主流的自動駕駛芯片也是使用這個技術(shù)，最新的標準是LPDDR5X，最高帶寬8533MT/s，這里的MT/s指的是每秒傳輸一百萬次，實際能傳輸?shù)臄?shù)據(jù)量還取決于位寬。

除了LPDDR之外，還有兩種帶寬更高的技術(shù)：GDDR和HBM。

HBM是一種使用了3D堆疊架構(gòu)和硅通孔技術(shù)的動態(tài)隨機存儲技術(shù)，主要用于高性能計算和AI領(lǐng)域，目前已發(fā)展到HBM3。

采用這個技術(shù)的英偉達H100 NVL顯卡，最大帶寬能達到7800GB/s。

但是HBM的缺點就是太貴，汽車領(lǐng)域無法承受這么高的成本。

GDDR可以算是廉價版的HBM，主要用于顯卡領(lǐng)域，目前發(fā)展到GDDR6x，例如英偉達最新的RTX4090顯卡采用的就是GDDR6x，最大帶寬能達到1008GB/s。

GDDR的成本雖然遠低于HBM，但是也要達到LPDDR的3倍以上。

在汽車行業(yè)有一家OEM就把GDDR技術(shù)用在了自動駕駛的芯片上，特斯拉最新的FSD二代芯片支持GDDR6，為了支持大模型特斯拉也是下了血本。

03 英偉達、特斯拉，大算力芯片的設(shè)計

在智能駕駛技術(shù)爆發(fā)之前，市場上的智駕芯片都是小算力，最高支持到L2的ADAS功能，最經(jīng)典的芯片是Mobileye的EyeQ系列。

從英偉達進入自動駕駛領(lǐng)域開始，智駕芯片進入大算力時代。

英偉達的OrinX和特斯拉的FSD芯片分別代表了大算力智駕芯片的兩種設(shè)計思路：

一個是在硬件上堆料來打破算力的天花板，大力出奇跡；

另一個是算法和硬件深度融合，最大效率的利用芯片的性能。

OrinX

雖然英偉達已經(jīng)發(fā)布了最大算力超過1000 TOPs的Thor

（邁向千T算力時代，最強智駕芯片Thor量產(chǎn)前夜），但是距離量產(chǎn)還有一段時間。

目前已量產(chǎn)的智駕芯片中，紙面算力最大的還是OrinX，先來看一下它的架構(gòu)。

CPU部分采用了12核的ARM Cortex-A78AE，這是ARM專為車載和移動端設(shè)計的架構(gòu)，算力為240 KDMIPS，同時基于Cortex-R52s提供了功能安全島。

GPU部分使用的英偉達的Ampere架構(gòu)，由2個圖形處理集群（GPC，Graphic Processing Cluster）組成，每個GPC有8個流處理器（SM，Streaming Multiprocessors），每個SM擁有128個CUDA核心和4個Tensor核心，OrinX總計擁有2048個CUDA核心和64個Tensor核心，在FP32精度下的GPU算力為5.2 TFLOPs。

OrinX沒有專門的NPU，但是提供了兩個加速器PVA和DLA，PVA是計算機視覺算法的加速器，DLA則是專門針對深度神經(jīng)網(wǎng)絡(luò)中卷積計算的加速器。通過GPU和DLA，OrinX在int8精度下最大可以提供254 TOPs的算力。

ISP最大的像素處理能力是1.85 Gpixel/s，位寬沒有明確的數(shù)據(jù)，可能是16 bit。

內(nèi)存部分采用的是256 bit的LPDDR5，最高帶寬6400 MT/s，對應(yīng)的內(nèi)存帶寬是204.8 GB/s。

從架構(gòu)上看，OrinX的CPU性能中規(guī)中矩，但是GPU性能強大，依靠英偉達強大的技術(shù)實力，不需要額外的NPU模塊，直接通過CUDA和Tensor核來滿足AI算法的需求，加上英偉達成熟的工具鏈和生態(tài)，不愧為市場上占有率最高的大算力智駕芯片。

FSD芯片

特斯拉最新的HW4.0已經(jīng)搭載了FSD二代芯片，但是沒有公開具體的參數(shù)。

這里還是以第一代FSD芯片為例，來看看特斯拉自研芯片的思路，先上架構(gòu)圖。

CPU用的是ARM Coretex-A72，一共有12個核心，A72單核心的CPU算力為5.5 DMIPs/MHz，主頻是2.2 GHz，12個核心的總算力大約為146 KDMIPs。

GPU部分使用的是ARM Mali-G71，算力只有600 GFLOPs，但GPU不是FSD芯片主要的計算核心，影響不大。

FSD芯片最核心的部分是NPU，每個芯片上有兩個NPU，專為神經(jīng)網(wǎng)絡(luò)計算中的MAC設(shè)計，每個NPU在int8精度下的最大算力為36 TOPs，單顆FSD芯片的最大算力為72 TOPs。

從數(shù)字上看并不是很大，與OrinX單顆254 TOPs看起來有差距，但是OrinX的這個數(shù)字是稀疏算力，而且是把CUDA和Tensor核心加在一起的綜合算力，實際上參與MAC計算的主要是Tensor核心，它的稠密算力只有54 TOPs。

這也是為什么第一代FSD芯片雖然算力數(shù)字不大，但是Transformer和端到端大模型依然能夠跑起來的原因。

從FSD芯片的設(shè)計可以看到自研的好處，專為神經(jīng)網(wǎng)絡(luò)算法而設(shè)計的NPU模塊，能夠最大限度的發(fā)揮芯片的性能，能效比拉滿。

地平線J6P

最后來看看國內(nèi)的后起之秀——地平線。

作為中國智駕芯片的一哥，地平線進步的速度也非�？�。最新的征程6系列芯片包含了從低階到高階的多款產(chǎn)品，其中的旗艦產(chǎn)品J6P的算力更是達到了560 TOPs。

雖然地平線沒有公布詳細的架構(gòu)，但是從一些數(shù)據(jù)可以看出這顆芯片擁有非常強大的性能。

CPU采用的是18核心的ARM Cortex-A78E，算力超過400DMIPs，接近OrinX的兩倍。GPU算力不高，只有200GFLOPs；同時內(nèi)置功能安全島，大概率使用的是ARM Cortex-R52內(nèi)核，實現(xiàn)ASIL-D等級。

NPU部分使用的是地平線自研的BPU架構(gòu)，目前已經(jīng)發(fā)展到了第三代，地平線命名為納什。

這一代BPU最大的特點是針對Transformer、BEV等算法做了針對性的優(yōu)化，同時在架構(gòu)上使用了三級存儲架構(gòu)，可以降低大規(guī)模參數(shù)下帶寬的瓶頸問題，加上浮點向量加速單元和數(shù)據(jù)變換引擎等技術(shù)，J6P在int8精度下的最大算力達到了560 TOPs。

存儲方面使用了LPDDR5，最高帶寬205GB/s，和OrinX保持一致。

J6P的晶體管數(shù)量達到了370億，相比之下英偉達OrinX是170億，而FSD芯片只有60億。

強大的CPU和NPU算力，加上對神經(jīng)網(wǎng)絡(luò)算法的特殊優(yōu)化，J6一發(fā)布就獲得了極大的關(guān)注，國內(nèi)主流的OEM都官宣將基于J6開發(fā)新一代自動駕駛域控，J6的最終表現(xiàn)讓人期待。

04 誰是自研最強芯片？

在去年的NIO DAY上，蔚來就率先公布了自研芯片神璣NX9031，并于今年7月份流片成功，隨后小鵬也在8月份宣布自研芯片圖靈流片成功，兩家都走的是大算力路線。

下面就從已知的參數(shù)上，來看看誰才是自研的最強芯片。

蔚來神璣NX9031

發(fā)布會上斌哥稱這是全球第一顆5nm的智駕芯片，可見蔚來是下了血本。

現(xiàn)在有能力代工5nm芯片的只有臺積電和三星，而且資源緊張，代工費不菲。晶體管數(shù)量超過500億，是OrinX的兩倍以上，加上5nm的先進制程，芯片的性能表現(xiàn)令人期待。

CPU部分采用的大小核設(shè)計，總共是32個核心，這里面包含三種核心，大核是ARM Cortex-A78AE，小核是A65AE，內(nèi)部集成了功能安全島，使用的是R52�？偟腃PU算力達到了615K DMIPs。

GPU沒有公開數(shù)據(jù)，發(fā)布會上也沒有做介紹，有可能是沒有單獨的GPU模塊，把圖形渲染的部分都交給座艙來完成。

內(nèi)存使用的是LPDDR5x，這是2021年最新的DDR標準，最高帶寬8533Mbps，位寬按照256bit來計算的話，帶寬可以達到273GB/s。

NPU沒有公布具體的架構(gòu)，預(yù)計有2個核心。

蔚來特別強調(diào)了對算法的優(yōu)化，Transformer類算法性能有6.5倍的提升，Lidar類算法性能有4倍的提升，BEV算法性能4.3倍提升，但是蔚來沒有提是和哪個芯片相比，大概率是以當(dāng)前OrinX的平臺性能為參考。

蔚來沒有公布具體的算力，但是發(fā)布會上斌哥說一顆神璣的性能相當(dāng)于四顆OrinX，有些人就認為算力能超過1000 TOPs，這個顯然是錯誤的。兩個芯片并聯(lián)的算力并不能直接相加，因為會受到帶寬的限制。

Orin模組之間是通過以太網(wǎng)連接，4個OrinX并聯(lián)最多也就能增加20%的算力，所以當(dāng)前蔚來平臺的最大算力在300 TOPs左右。如果按照這個數(shù)字來看，斌哥所說的一顆頂四顆就可以理解了，估計神璣的實際算力在500 TOPs左右。

發(fā)布會上斌哥特別強調(diào)了ISP的性能，位寬26bit，像素處理能力達到了6.5Gpixel/s，前面介紹ISP參數(shù)的時候提到過，位寬24bit代表一個像素可以表示1600萬種顏色，26bit則是6700萬種顏色。

作為對比OrinX則是16bit左右，而像素處理能力OrinX也只有1.85Gpixel/s，可以說神璣的ISP性能是非常強大，從發(fā)布會演示的視頻來看，在畫面細節(jié)和暗光表現(xiàn)上都有巨大的提升。

但是有個小問題是發(fā)布會上展示的圖像是給人眼觀看的，并不是實際輸入給算法的色彩格式，神璣這顆強大的ISP對算法的實際提升還需要時間驗證。

從這些性能參數(shù)可以看出蔚來自研芯片的思路，不惜成本采用了5nm的工藝，換來的是斷層領(lǐng)先的CPU和ISP性能，加上專為算法設(shè)計的NPU架構(gòu)，最終可以實現(xiàn)1顆頂4顆OrinX的表現(xiàn)。

可以說在Thor正式上車之前，神璣NX9031就是當(dāng)下最強的智駕芯片，第一次設(shè)計芯片就能達到這樣的水平，讓人嘆服。

小鵬圖靈

蔚來宣布自研芯片流片成功的一個月后，小鵬也正式公布了自己的自研芯片——圖靈，一顆專為AI大模型定制的芯片，能用于智能駕駛、飛行汽車和智能機器人等多個領(lǐng)域。

小鵬沒有公布非常詳細的參數(shù)，我們可以從已知的幾個數(shù)據(jù)上大概推測出它的性能表現(xiàn)。

小鵬公布了總的核心數(shù)是40個，這其中包含了CPU和功能安全島，考慮到這顆芯片還要用于其它場景，需要考慮芯片的通用性，因此大概率是包含了GPU模塊的。

CPU大核預(yù)計采用的是ARM Cortex-A78AE，核心數(shù)量在24個左右，會有2-4個Cortex-R52作為功能安全島，整體CPU算力會在500 kDMIPs左右。

GPU部分可能使用的是ARM MALI-G78AE，核心數(shù)量在12個左右，預(yù)計GPU算力在1000 GFLOPs左右。

NPU部分有2個核心。

小鵬在發(fā)布會上介紹圖靈芯片在本地最高可運行300億個參數(shù)的大模型，結(jié)合小鵬未來的智駕路線，可以看出這顆芯片的NPU是專為端到端大模型而設(shè)計的。

雖然沒有公布具體的算力，但是何小鵬在發(fā)布會上也提到1顆圖靈芯片相當(dāng)于3顆OrinX芯片的算力，預(yù)計它的算力也能達到400 TOPs左右。

ISP部分比較特別，有2個獨立的ISP核心，一個負責(zé)AI算法的圖像處理，另一個負責(zé)圖像的合成，可能是考慮到其它應(yīng)用場景里不一定有汽車座艙芯片那樣強大的ISP模塊，所以單獨增加一個圖像處理的ISP核心，可以大大的提高芯片的通用性。

小鵬沒有公布具體的制程，但是提到了這顆芯片性價比非常高，因此大概率還是采用7nm的制程。

從這些參數(shù)上可以看出小鵬在自研芯片的設(shè)計路線上與蔚來有很大的不同。

首先是性能和價格的取舍，小鵬沒有追求高制程，而是采用性價比較高的7nm，而蔚來為了追求性能，不惜成本也要采用5nm制程；

其次是為大模型而定制的NPU模塊，從這里也能看出蔚來和小鵬在智駕路線上的不同。

蔚來的智駕路線里激光雷達還是重要的部分，因此神璣芯片對Lidar的算法做了特殊的優(yōu)化，而小鵬則是走純視覺路線，押注端到端大模型。

最后一點是非常高的通用性，圖靈芯片集成了GPU模塊和2個ISP核心，能應(yīng)用于多個類型的產(chǎn)品，是小鵬AI版圖中非常重要的一部分。

而蔚來的神璣芯片則專為智駕而設(shè)計，舍棄了GPU模塊，把芯片上的空間留給了其它模塊。

從理論性能上來說蔚來的神璣無疑是當(dāng)下自研的最強芯片，但是自研芯片是為算法而定制的，性能強大并不代表全部，最終還是要看系統(tǒng)的實際表現(xiàn)。

明年Q1上市的蔚來ET9將會搭載2顆神璣NX9031，小鵬的圖靈芯片也將于明年上車，地平線與J6P深度軟硬結(jié)合的智駕方案SuperDrive預(yù)計明年Q3量產(chǎn)。

還有傳聞中的理想、比亞迪、Momenta，自研芯片和軟硬一體將是智駕行業(yè)的下一個趨勢，明年各個頭部大廠在智駕上的表現(xiàn)讓人期待。

原文標題 : 自研芯片三國殺，頭部智駕新戰(zhàn)場，蔚小理誰強？

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號的作者撰寫，觀點僅代表作者本人，不代表OFweek立場。如有侵權(quán)或其他問題，請聯(lián)系舉報。

發(fā)表評論

共0條評論，0人參與

登錄登錄即可訪問所有OFweek服務(wù)

用戶名/郵箱/手機：
密碼：
忘記密碼？
用其他賬號登錄： QQ | 微信 | 新浪微博

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

暫無評論

圖片新聞

行業(yè)報告

2023年激光雷達應(yīng)用市場調(diào)研及前景預(yù)測報告
2023年中國光電傳感器市場發(fā)展現(xiàn)狀及投資前景分析
2023年中國汽車電子行業(yè)市場發(fā)展現(xiàn)狀及投資前景分析
2022年新能源汽車充電樁市場分析報告