一文看懂AI芯片最新格局
云端推斷芯片:百家爭鳴,各有千秋
推斷是指借助現(xiàn)有神經(jīng)網(wǎng)絡(luò)模型進(jìn)行運(yùn)算, 利用新的輸入數(shù)據(jù)來一次性獲得正確結(jié)論的過程。 推斷過程對響應(yīng)速度一般有較高要求, 因此會采用 AI 芯片(搭載訓(xùn)練完成的神經(jīng)網(wǎng)絡(luò)模型)進(jìn)行加速。
相比訓(xùn)練芯片,推斷芯片考慮的因素更加綜合:單位功耗算力,時延,成本等等。初期推斷也采用 GPU 進(jìn)行加速,但由于應(yīng)用場景的特殊性,依據(jù)具體神經(jīng)網(wǎng)絡(luò)算法優(yōu)化會帶來更高的效率, FPGA/ASIC 的表現(xiàn)可能更突出。除了 Nvidia、 Google、 Xilinx、 Altera(Intel)等傳統(tǒng)芯片大廠涉足云端推斷芯片以外, Wave computing、 Groq 等初創(chuàng)公司也加入競爭。中國公司里,寒武紀(jì)、比特大陸同樣積極布局云端芯片業(yè)務(wù)。
主要云端推斷芯片對比
我們認(rèn)為, 云端推斷芯片在未來會呈現(xiàn)百花齊放的態(tài)勢。 具體情況如下:
Nvidia
在云端推斷芯片領(lǐng)域, Nvidia 主打產(chǎn)品為 P40 和 P4, 二者均采用 TSMC 16nm 制程。 TeslaP4 擁有 2560 個流處理器,每秒可進(jìn)行 22 萬億次(TOPS) 計算(對應(yīng) INT 8)。而性能更強(qiáng)的 Tesla P40 擁有 3840 個流處理器,每秒可進(jìn)行 47 萬億次(TOPS)計算(對應(yīng) INT 8)。從單位功耗推斷能力來看, P4/P40 雖然有進(jìn)步,但仍遜于 TPU。 GPU 在推斷上的優(yōu)勢是帶寬。
Google TPU 1.0 為云端推斷而生,其運(yùn)算單元對神經(jīng)網(wǎng)絡(luò)中的乘加運(yùn)算進(jìn)行了優(yōu)化,并采用整數(shù)運(yùn)算。 TPU 1.0 單位功耗算力在量產(chǎn)云端推端芯片中最強(qiáng),達(dá) 1.2TOPS/Watt,優(yōu)于主流 Nvidia GPU。 TPU 2.0 在推斷表現(xiàn)上相比于 1 代并沒有本質(zhì)提升,主要進(jìn)步是引入對浮點(diǎn)數(shù)運(yùn)算的支持,及更高的片上內(nèi)存。正如前文所述,支持訓(xùn)練的 TPU 功耗也會變得更高。
Wave Computing
Wave computing 于 2010 年 12 月成立于加州,目前累計融資 1.2 億美元,是專注于云端深度學(xué)習(xí)訓(xùn)練和推理的初創(chuàng)公司。Wave computing 的一代 DPU 深度學(xué)習(xí)算力達(dá) 180 TOPS,且無需 CPU 來管理工作流。目前公司正與 Broadcomm 合作在開發(fā)二代芯片,將采用 7nm制程。
Groq
Groq 是由 Google TPU 初始團(tuán)隊離職創(chuàng)建的 AI 芯片公司,計劃在 2018 年發(fā)布第一代 AI芯片產(chǎn)品,對標(biāo)英偉達(dá)的 GPU。其算力可達(dá) 400 TOPs(INT 8),單位能耗效率表現(xiàn)搶眼。
寒武紀(jì)科技
寒武紀(jì)在 2017 年 11 月發(fā)布云端芯片 MLU 100,同時支持訓(xùn)練和推斷,但更側(cè)重于推斷。MLU 100 在 80W 的功耗下就可以達(dá)到 128 TOPS(對應(yīng) INT 8)的運(yùn)算能力。
比特大陸
比特大陸的計算芯片 BM 1680,集成了深度學(xué)習(xí)算法硬件加速模塊(NPUs),應(yīng)用于云端計算與推理。 BM1680 還提供了 4 個獨(dú)立的 DDR4 通道,用于高速數(shù)據(jù)緩存讀取,以提高系統(tǒng)的執(zhí)行速度。其典型功耗只有 25W,在單位能耗推斷效率上有一定優(yōu)勢。
應(yīng)用場景1:云端推斷芯片助力智能語音識別
云端推斷芯片提升語音識別速度。 語音識別是推斷芯片的工作場景之一,如 Amazon 的語音助手 Alexa,其“智能”來自于 AWS 云中的推斷芯片。 Alexa 是預(yù)裝在亞馬遜 Echo內(nèi)的個人虛擬助手,可以接收及相應(yīng)語音命令。通過將語音數(shù)據(jù)上傳到云端,輸入推斷芯片進(jìn)行計算,再返回結(jié)果至本地來達(dá)到與人實現(xiàn)交互的目的。原先云端采用 CPU 進(jìn)行推斷工作,由于算力低,識別中會有 300-400ms 的延遲,影響用戶體驗。
智能音箱通過云端推斷芯片工作
而現(xiàn)今 AWS 云中采用了 Nvidia 的 P40 推斷芯片,結(jié)合 Tensor RT 高性能神經(jīng)網(wǎng)絡(luò)推理引擎(一個 C++庫),可以將延遲縮減到 7ms。 此外, AI 芯片支持深度學(xué)習(xí),降低了語音識別錯誤率。 目前, 借助云端芯片的良好推斷能力,百度語音助手的語音識別準(zhǔn)確度已達(dá)到 97%之高。
Nvidia 云端推斷芯片提升語音識別速度
應(yīng)用場景2:推斷芯片應(yīng)用于智能搜索
RankBrain 是 Google 眾多搜索算法的一部分,它是一套計算機(jī)程序,能把知識庫中上十億個頁面進(jìn)行排序,然后找到與特定查詢最相關(guān)的結(jié)果。 目前, Google 每天要處理 30 億條搜索,而其中 15%的詞語是 Google 沒有見過的。 RankBrain 可以觀察到看似無關(guān)復(fù)雜搜索之間的模式,并理解它們實際上是如何彼此關(guān)聯(lián)的, 實現(xiàn)了對輸入的語義理解。 這種能力離不開 Google 云端推斷芯片 TPU 的輔助。
推斷芯片助力深度學(xué)習(xí)實現(xiàn)語義識別
先前,在沒有深度學(xué)習(xí)情況下,單純依靠 PageRanking 及 InvertedIndex, Google 也能實現(xiàn)一定程度的對搜索詞條排序的優(yōu)化,但準(zhǔn)確率不夠。 TPU 利用 RankBrain 中的深度學(xué)習(xí)模型,在 80%的情況下計算出的置頂詞條,均是人們最想要的結(jié)果。
TPU+RankBrain 在推斷正確率上獲得提高
用于智能手機(jī)的邊緣推斷芯片:競爭格局穩(wěn)定,傳統(tǒng)廠商持續(xù)受益
手機(jī)芯片市場目前包括:(1)蘋果,三星,華為這類采用芯片+整機(jī)垂直商業(yè)模式的廠商,以及(2)高通,聯(lián)發(fā)科,展銳等獨(dú)立芯片供應(yīng)商和(3) ARM, Synopsys、 Cadence 等向芯片企業(yè)提供獨(dú)立 IP 授權(quán)的供應(yīng)商。 采用垂直商業(yè)模式廠商的芯片不對外發(fā)售,只服務(wù)于自身品牌的整機(jī),性能針對自身軟件做出了特殊優(yōu)化,靠效率取勝。獨(dú)立芯片供應(yīng)商以相對更強(qiáng)的性能指標(biāo),來獲得剩余廠商的市場份額。
從 2017 年開始,蘋果,華為海思,高通,聯(lián)發(fā)科等主要芯片廠商相繼發(fā)布支持 AI 加速功能的新一代芯片(如下圖), AI 芯片逐漸向中端產(chǎn)品滲透。由于手機(jī)空間有限, 獨(dú)立的AI 芯片很難被手機(jī)廠采用。在 AI 加速芯片設(shè)計能力上有先發(fā)優(yōu)勢的企業(yè)(如寒武紀(jì))一般通過 IP 授權(quán)的方式切入。
手機(jī) AI 芯片對比
對這些廠商來說,我們認(rèn)為 AI 化的主要作用是提升芯片附加價值與產(chǎn)品單價。根據(jù) IHS的數(shù)據(jù),隨著硬件性能的增強(qiáng)及針對于 AI 的運(yùn)算結(jié)構(gòu)不斷滲透,蘋果 A11 芯片的成本已達(dá)到 27.5 美元。
智能手機(jī) SoC 市占率分析(2017)
芯片成本持續(xù)上漲有望帶動垂直模式廠商整機(jī)售價走高,在出貨量相同的情況下為現(xiàn)有芯片廠商貢獻(xiàn)更多的營業(yè)收入。高通、聯(lián)發(fā)科、展銳等獨(dú)立芯片供應(yīng)商則會受益于芯片本身 ASP 的提升。
歷代 Apple 手機(jī)芯片成本趨勢
應(yīng)用場景1:推斷芯片為 AI 拍照技術(shù)提供硬件支持
智能手機(jī)通過 AI 算法+終端推斷芯片,可實現(xiàn)對于現(xiàn)實世界圖像的智能識別,并在此基礎(chǔ)上進(jìn)行實時優(yōu)化:
1)從整個場景識別,到特殊優(yōu)化過程中,推斷芯片為算法運(yùn)行提供硬件支持。
2)手機(jī)推斷芯片中 GPU、 NPU 等單元的協(xié)同工作,實現(xiàn)了對邊緣虛化更準(zhǔn)確的處理,使小尺寸感光元件的手機(jī)獲得“單反” 級的景深效果,增加相片的層次感。
3)人臉結(jié)構(gòu)的識別也離不開邊緣推斷芯片,芯片性能的提升直接導(dǎo)致了 AI 美顏、 3D 光效等特殊效果變得更加自然。 如果缺少終端芯片的支持,一旦運(yùn)行高負(fù)載的 AI 任務(wù)手機(jī)就需要呼喚云端。而云端的相應(yīng)速度不夠,導(dǎo)致 AI 攝影的識別率和準(zhǔn)確率下降,用戶體驗將大打折扣。
手機(jī) AI 芯片輔助圖片渲染優(yōu)化
應(yīng)用場景2:推斷芯片助力語音助手處理復(fù)雜命令
從“聽清”到“聽懂”,自然語言理解能力提升與推斷芯片硬件的支持分不開:多麥克風(fēng)方案的普及解決了“聽清”的問題,而到“聽懂”的跨越中自然語言理解能力是關(guān)鍵。這不僅對云端訓(xùn)練好的模型質(zhì)量有很高要求,也必須用到推斷芯片大量的計算。隨著對話式 AI 算法的發(fā)展,手機(jī) AI 芯片性能的提升,語音助手在識別語音模式、分辨模糊語音、剔除環(huán)境噪聲干擾等方面能力得到了優(yōu)化,可以接受理解更加復(fù)雜的語音命令。
手機(jī) AI 芯片輔助 Vivo Jovi 處理復(fù)雜命令
用于安防邊緣推斷芯片: 海思、安霸與 Nvidia、 Mobileye 形成有力競爭
視頻監(jiān)控行業(yè)在過去十幾年主要經(jīng)歷了“高清化”、“網(wǎng)絡(luò)化”的兩次換代,而隨著 2016年以來 AI 在視頻分析領(lǐng)域的突破,目前視頻監(jiān)控行業(yè)正處于第三次重要升級周期——“智能化”的開始階段。 前端攝像頭裝備終端推斷芯片,可以實時對視頻數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理,“云+邊緣”的邊緣計算解決方案逐漸滲透。 我們預(yù)計, 應(yīng)用安防攝像頭的推斷芯片市場規(guī)模,將從 2017 年的 3.3 億美元,增長至 2022 年的 18 億美元, CAGR~41%。
應(yīng)用場景:安防邊緣推斷芯片實現(xiàn)結(jié)構(gòu)化數(shù)據(jù)提取,減輕云端壓力
即便采用 H.265 編碼,目前每日從攝像機(jī)傳輸?shù)皆贫说臄?shù)據(jù)也在 20G 左右,不僅給存儲造成了很大的壓力,也增加了數(shù)據(jù)的傳輸時間。 邊緣推斷芯片在安防端的主要應(yīng)用,基于將視頻流在本地轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)。 這樣既節(jié)省云端存儲空間, 也提升系統(tǒng)工作效率!耙曨l結(jié)構(gòu)化”,簡言之即從視頻中結(jié)構(gòu)化提取關(guān)鍵目標(biāo),包括車輛、人及其特征等。雖然這種對數(shù)據(jù)的有效壓縮要通過算法實現(xiàn),但硬件的支持不可或缺。
視頻結(jié)構(gòu)化數(shù)據(jù)提取實例
根據(jù)?低曁峁﹤鹘y(tǒng)視頻解碼芯片廠商積極布局 AI 升級。 華為海思、安霸(Ambarella)都在近一年內(nèi)推出了支持 AI 的安防邊緣推斷芯片。海思的 HI3559A 配備了雙核神經(jīng)網(wǎng)絡(luò)加速引擎,并成為第一款支持 8k 視頻的芯片;安霸也通過集成 Cvflows 張量處理器到最新的 CV2S 芯片中,以實現(xiàn)對 CNN/DNN 算法的支持。
AI 芯片助力結(jié)構(gòu)化分析實現(xiàn)工作效率提升
打入視頻監(jiān)控解決方案龍頭?低,實現(xiàn)前裝的 Nvidia,Movidius 同樣不甘示弱, Movidius 發(fā)布的最新產(chǎn)品 Myriad X 搭載神經(jīng)計算引擎,在 2W的功耗下可實現(xiàn) 1TOPS 的算力。Nvidia TX2 是 TX1 的升級產(chǎn)品,算力更強(qiáng),達(dá)到 1.5TFLOPS,存儲能力也有提升。
安防 AI 芯片對比
我們認(rèn)為,目前整個安防 AI 芯片市場競爭格局穩(wěn)定,現(xiàn)有廠商憑借與下游客戶長期的合作,有望繼續(xù)受益于安防智能化的升級,屬于新進(jìn)入者的市場空間有限。 安防 AI 芯片下游客戶穩(wěn)定,為?低、大華股份等視頻監(jiān)控解決方案提供商?蛻襞c傳統(tǒng)視頻解碼芯片廠商的長期合作具有粘性,同樣推出新產(chǎn)品,初創(chuàng)公司的競爭優(yōu)勢弱一些,尤其是在安防 AI 芯片性能差異化很難做到很大的情況下。
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
即日-11.13立即報名>>> 【在線會議】多物理場仿真助跑新能源汽車
-
11月28日立即報名>>> 2024工程師系列—工業(yè)電子技術(shù)在線會議
-
12月19日立即報名>> 【線下會議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會
-
即日-12.26火熱報名中>> OFweek2024中國智造CIO在線峰會
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書》
-
精彩回顧立即查看>> 【限時免費(fèi)下載】TE暖通空調(diào)系統(tǒng)高效可靠的組件解決方案
推薦專題
- 高級軟件工程師 廣東省/深圳市
- 自動化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市