人工智能計(jì)算的需求劇增,迫切需要計(jì)算架構(gòu)的創(chuàng)新
計(jì)算架構(gòu)的瓶頸
與突破方向
隨著人工智能計(jì)算的需求劇增,現(xiàn)有計(jì)算架構(gòu)遭遇功耗墻、性能墻、內(nèi)存墻、摩爾定律趨緩等挑戰(zhàn)迫切需要計(jì)算架構(gòu)的創(chuàng)新,解決路徑主要體現(xiàn)在兩點(diǎn):突破計(jì)算架構(gòu)和打破存儲(chǔ)墻。
計(jì)算架構(gòu)的創(chuàng)新一直是爭論的焦點(diǎn),在應(yīng)用上涌現(xiàn)的GPU、FPGA、ASIC、類腦甚至于3DSoC等,都是想打破適應(yīng)性、性能、功效、可編程性和可擴(kuò)展性等5個(gè)硬件特性的瓶頸,任何一個(gè)架構(gòu)都不會(huì)在5個(gè)特性都達(dá)到最優(yōu)。
拋開哪個(gè)架構(gòu)最優(yōu),適合人工智能的業(yè)務(wù)場景、數(shù)據(jù)類型、支出成本的架構(gòu),能讓醫(yī)療AI解決方案快速的就是好的架構(gòu)。
計(jì)算架構(gòu)更新資金成本的提高、時(shí)間成本的延長和復(fù)雜度的提升,促使學(xué)術(shù)界和產(chǎn)業(yè)界轉(zhuǎn)向研究“如何打破存儲(chǔ)墻”,解決路徑好多種,包括:
1. 高帶寬的數(shù)據(jù)通信
高速SerDes:點(diǎn)對點(diǎn)的串行通信提升傳輸速度;
光互連:信號間無感應(yīng)、無干擾、速率高、密度大替代電互聯(lián);
2.5D/3D堆疊技術(shù):搭積木,不改變現(xiàn)有產(chǎn)品制程的基礎(chǔ)上提高單位芯片面積內(nèi)的晶體管數(shù)量,處理器周圍堆疊更多的存儲(chǔ)器件。
2. 數(shù)據(jù)、計(jì)算、存取
增加緩存級數(shù):處理器和主存插入高速緩存,相對來說緩存越大速度越快,但成本高。
高密度片上內(nèi)存:EDRAM動(dòng)態(tài)隨機(jī)存取內(nèi)存、PCM相變存儲(chǔ)的靜態(tài)和非晶體轉(zhuǎn)換。
3. 內(nèi)存運(yùn)算
近數(shù)據(jù)計(jì)算:離數(shù)據(jù)更近的邊緣側(cè)進(jìn)行計(jì)算處理。
存算一體:片外高帶寬內(nèi)存HBM、高帶寬存儲(chǔ)(3D-Xtacking,存儲(chǔ)單元和外圍電路在不同晶圓獨(dú)立加工)和片內(nèi)(在存儲(chǔ)器顆粒本身的算法嵌入)。
馮諾伊曼架構(gòu)是計(jì)算機(jī)的經(jīng)典架構(gòu),同時(shí)也是目前計(jì)算機(jī)以及處理器芯片的主流架構(gòu)。在馮諾伊曼架構(gòu)中,計(jì)算/處理單元與內(nèi)存是兩個(gè)完全分離的單元:計(jì)算/處理單元根據(jù)指令從內(nèi)存中讀取數(shù)據(jù),在計(jì)算/處理單元中完成計(jì)算/處理,并存回內(nèi)存。
存內(nèi)運(yùn)算的主要改進(jìn)就是把計(jì)算嵌入到內(nèi)存里面去,內(nèi)存變成存儲(chǔ)+計(jì)算的利器,在存儲(chǔ)/讀取數(shù)據(jù)的同時(shí)完成運(yùn)算,減少了計(jì)算過程中的數(shù)據(jù)存取的耗費(fèi)。把計(jì)算都轉(zhuǎn)化為帶權(quán)重加和計(jì)算,把權(quán)重存在內(nèi)存單元中,讓內(nèi)存單元具備計(jì)算能力。
AI運(yùn)算的另一方向
低功耗持續(xù)運(yùn)行的物聯(lián)網(wǎng)設(shè)備,比如智能家居、可穿戴設(shè)備、移動(dòng)終端及感知計(jì)算、智慧城市需要的低功耗邊緣計(jì)算設(shè)備。
目前的計(jì)算機(jī)系統(tǒng)采用的馮·諾伊曼結(jié)構(gòu),當(dāng) CPU 處理來自 DRAM 芯片外的數(shù)據(jù)時(shí),頻繁使用的數(shù)據(jù)被存儲(chǔ)緩存中(L1級、L2級和L3級),這樣不僅速度快和功耗低,還能夠獲得最大性能。然而在需要處理大量數(shù)據(jù)的應(yīng)用程序中,絕大部分?jǐn)?shù)據(jù)是從內(nèi)存中讀取的,因?yàn)榕c緩存的容量相比起來,要處理的數(shù)據(jù)則大的多。
在這種情況下,CPU 和內(nèi)存之間數(shù)據(jù)通道的帶寬成為限制性能發(fā)揮的瓶頸 ,在 CPU 和內(nèi)存之間傳輸數(shù)據(jù)也消耗了巨大能量。為了突破這一瓶頸,CPU 和內(nèi)存之間的通道帶寬需要擴(kuò)展,但是如果當(dāng)前 CPU 的管腳數(shù)量已經(jīng)達(dá)到極限,進(jìn)一步的帶寬改進(jìn)將面臨技術(shù)上難以逾越的困難。在現(xiàn)代計(jì)算機(jī)結(jié)構(gòu)中,數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)計(jì)算是分開的,這樣的“數(shù)據(jù)墻”問題是不可避免的。我們不妨假設(shè)處理器用于乘法運(yùn)算的功耗約為1個(gè)單位,而從 DRAM 中獲取數(shù)據(jù)到處理器需要消耗的能量是數(shù)據(jù)的實(shí)際計(jì)算的650倍,也就是說減少數(shù)據(jù)移動(dòng)對于性能和功耗的提升是巨大的。
深層神經(jīng)網(wǎng)絡(luò)(DNN)是一種機(jī)器學(xué)習(xí)(ML) ,其中以用于計(jì)算機(jī)視覺(CV)的卷積神經(jīng)網(wǎng)絡(luò)(CNN)和用于自然語言處理(NLP)的遞歸神經(jīng)網(wǎng)絡(luò)(RNN)為大家所熟知,并且最近大熱的推薦模型(RM)等新的應(yīng)用程序也趨向于使用 DNN。對于RNN而言,其主要運(yùn)算是矩陣向量乘法運(yùn)算,由于其具有低數(shù)據(jù)重用特性,內(nèi)存訪問次數(shù)越多,通過內(nèi)存通道的數(shù)據(jù)移動(dòng)就越多,而性能瓶頸就越明顯。
所以為了改進(jìn)這一點(diǎn),有很多人提出應(yīng)用PIM技術(shù)重新構(gòu)建DRAM內(nèi)存,PIM正如其定義的那樣,其操作和計(jì)算是在內(nèi)存中執(zhí)行的,也就是說,PIM的預(yù)期效果是通過在內(nèi)存中執(zhí)行操作而不將數(shù)據(jù)移動(dòng)到 CPU,從而最小化數(shù)據(jù)移動(dòng),用來提升性能。從20世紀(jì)90年代末到21世紀(jì)初,學(xué)術(shù)界積極研究這一概念,但由于 DRAM 處理和邏輯計(jì)算的技術(shù)難度大,以及使用 DRAM 處理實(shí)現(xiàn)內(nèi)存中 CPU 的成本太高,導(dǎo)致PIM 的競爭力大大削弱,并且也沒有商業(yè)化。但是現(xiàn)今對于性能的需求使得這一概念的商業(yè)化提上了日程。
如果想要理解 PIM,首先我們是要知道 AI究竟進(jìn)行了什么樣的操作,下圖給我們展示了神經(jīng)網(wǎng)絡(luò)中的完全連接(FC)層,單輸出神經(jīng)元Y1節(jié)點(diǎn)鏈接到X1,X2,X3和X4節(jié)點(diǎn)上,每個(gè)節(jié)點(diǎn)突觸上的權(quán)重分別為w11,w12,w13和w14。AI為了處理這個(gè)全連接層需要將每個(gè)計(jì)算節(jié)點(diǎn)和權(quán)重相乘然后再進(jìn)行求和,然后再應(yīng)用一個(gè)激活函數(shù),如RELU等。更復(fù)雜的情況是有幾個(gè)輸入(X1...Xn)和輸出(Y1...Yn)的情況下,AI將每個(gè)單元分別乘以其對應(yīng)輸出的權(quán)重然后再分別求和,而這也就是數(shù)學(xué)上的矩陣乘法和加法運(yùn)算。
同樣的在圖5中,如果我們把這些運(yùn)算用的電路全部設(shè)計(jì)到存儲(chǔ)單元中,則完全不需要將數(shù)據(jù)搬運(yùn)和傳輸,只需要在存儲(chǔ)單元中完成計(jì)算并且把結(jié)果告知CPU即可;這樣不僅能夠顯著減少功耗,還能盡可能的處理更加復(fù)雜的操作。目前SK Hynix公司正在大力開發(fā)采用這一技術(shù)的PIM DRAM,對于RNN 等內(nèi)存瓶頸的應(yīng)用來說,如果在 DRAM 中使用計(jì)算電路執(zhí)行應(yīng)用程序,預(yù)計(jì)性能和功耗將有顯著提高。而未來CPU需要處理的數(shù)據(jù)還在不斷增多,PIM有望成為計(jì)算機(jī)提升性能最強(qiáng)有力的方案。
內(nèi)存運(yùn)算的優(yōu)劣
(1)片外存儲(chǔ)(基于數(shù)字芯片和存儲(chǔ)器配合的存算一體)
①高帶寬內(nèi)存HBM:
對于GPU來講,采用3D的DRAM和GPU金屬線連接,提高通信速度(900GB/S),但功耗高、成本高。
對于其他芯片來說,用SRAM替代HBM(3D DRAM)降低能耗和提升讀寫速度,成本高。這種情況用大量的SRAM可以匹配大量的MPU和CPU等處理器,提升運(yùn)行的效率。
②新型存儲(chǔ)拓寬內(nèi)存:
使用新型存儲(chǔ)器布局在處理器周圍拓展內(nèi)存,比如磁存儲(chǔ)(MRAM)降低成本、提升存儲(chǔ)密度,斷電數(shù)據(jù)不丟失,工藝僅多提高3-4層MASK,性能有效提升,達(dá)到約10Tops/W(每瓦特10萬億次運(yùn)算)。
(2)片內(nèi)存儲(chǔ)(數(shù)模混合的存算一體化)
片內(nèi)存儲(chǔ)就是在存儲(chǔ)器顆粒嵌入算法權(quán)重MAC,將存儲(chǔ)單元具備計(jì)算功能,并行計(jì)算能力強(qiáng),加上神經(jīng)網(wǎng)絡(luò)的對于計(jì)算精度的誤差容忍度較高(存儲(chǔ)位數(shù)可根據(jù)應(yīng)用調(diào)整),因此存內(nèi)計(jì)算數(shù)字和模擬混合即使帶來誤差對于符合的應(yīng)用性能和能效比合適,帶來存內(nèi)計(jì)算和人工智能尤其深度學(xué)習(xí)的廣泛結(jié)合。
①相變存儲(chǔ)PCM
相變存儲(chǔ)器通常是改變加熱時(shí)間促進(jìn)硫族化合物在晶態(tài)和非晶態(tài)巨大的導(dǎo)電性差異來存儲(chǔ)數(shù)據(jù),相變時(shí)間100-1000ns,可擦寫次數(shù)達(dá)到108,現(xiàn)在新型材料涌現(xiàn)的越來越多。
②阻變存儲(chǔ)器/憶阻器 RRAM/Memristor
憶阻器,是一種有記憶功能的非線性電阻,它的電阻會(huì)隨著流過的電流而改變。在斷電之后,即使電流停止了,電阻值仍然會(huì)保持下去,直到反向電流通過,它才會(huì)返回原狀。所以,通過控制電流變化可以改變它的阻值,然后例如將高阻值定義為“1”,低阻值定義為“0”,就可以實(shí)現(xiàn)數(shù)據(jù)存儲(chǔ)功能。人們通常將它用于構(gòu)建高密度非易失性的阻變存儲(chǔ)器(RRAM)。
憶阻器網(wǎng)絡(luò),與生物大腦的神經(jīng)網(wǎng)絡(luò)相似,可以同時(shí)處理許多任務(wù)。最重要的是,它無需反復(fù)移動(dòng)數(shù)據(jù)。它可以并行地處理大量信號,特別適合于機(jī)器學(xué)習(xí)系統(tǒng)。編程時(shí)間大概10-1000ns,可編程次數(shù)106-1012次。
③浮柵器件
浮柵器件工藝成熟,編程時(shí)間10-1000ns,可編程次數(shù)105次,存儲(chǔ)陣列大,實(shí)現(xiàn)量產(chǎn)運(yùn)算精度高、密度大、效率高、成本低,適宜深度學(xué)習(xí)和人工智能使用。
3.芯片優(yōu)化策略
終端存算一體芯片推理應(yīng)用需要更低的成本、更低的功耗,對于精度、通用性要求不高。
云端存算一體芯片訓(xùn)練應(yīng)用需要通用性、速度和精度要求,因此目前存算一體芯片精度不高情況下適宜前端的嵌入式應(yīng)用。
4.存算一體芯片挑戰(zhàn)
(1)現(xiàn)有浮柵器件存儲(chǔ)不適合計(jì)算,需要優(yōu)化和改進(jìn)。
(2)新型存儲(chǔ)器的進(jìn)展挑戰(zhàn)浮柵器件,會(huì)有更適合存算一體的可能。
(3)存算一體目前在8bit運(yùn)算精度,在適宜的條件下需提升運(yùn)算精度,比如Nor Flash做到10bit。
(4)存算一體芯片與開發(fā)環(huán)境、架構(gòu)和現(xiàn)有工藝的兼容需要市場和時(shí)間。
(5)性能與場景結(jié)合需要落地。
5.存算一體的未來
(1)低精度但準(zhǔn)確的乘法和累加運(yùn)算帶來端的效率提升,芯片成本降低,目前Nor Flash在40nm/55nm工藝下即可,但Nor 會(huì)一定程度限定應(yīng)用,不過未來開發(fā)更優(yōu)化器件和工藝就可突破。
(2)存算一體芯片的投資機(jī)構(gòu)包括軟銀、英特爾、微軟、博世、亞馬遜甚至美國政府,中國存算一體的知存科技將獲得下一輪的投資,同時(shí)還有清華憶阻器的新憶科技。
(3)存算一體芯片第一代產(chǎn)品都瞄準(zhǔn)語音,未來都將切入安防和細(xì)分市場,但。
(4)存算一體企業(yè)模式應(yīng)分為兩種模式:一是銷售IP,二是做AI存算一體芯片,前者單純IP日子將非常難過。未來還是做芯片吧!不過各類競爭也不小。
(5)目前存算一體的極限效率為>300Tops/W(8bit),現(xiàn)在工業(yè)界差距較大5-50Tops/W,進(jìn)步空間大。
(6)浮柵器件在摩爾定律帶動(dòng)下朝著更高工藝發(fā)展,比如從40-14nm過渡,性能將大幅提升。新型存儲(chǔ)器將從28-5nm工藝過渡,提升工藝性能。
(7)存儲(chǔ)器工藝將朝著2X甚至10X及結(jié)構(gòu)優(yōu)化提升存算一體性能。
編譯自:The prospect of Processing In Memory (PIM) in memory systems for AI applications ----EEtimes
關(guān)于慧維智能
慧維智能醫(yī)療科技有限公司成立于2019年6月,專業(yè)從事智能醫(yī)療產(chǎn)品的研發(fā)、生產(chǎn)與銷售。我們的核心成員,均來自全球頂尖的科研機(jī)構(gòu)和世界五百強(qiáng)企業(yè);劬S智能以在“人工智能”和“邊緣計(jì)算”領(lǐng)域的自主核心技術(shù)為驅(qū)動(dòng)力,致力于為全球醫(yī)療機(jī)構(gòu)提供“高水準(zhǔn)、好體驗(yàn)”的醫(yī)療產(chǎn)品與服務(wù),最大程度地幫助醫(yī)生提高診療水平與效率。
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個(gè)字
最新活動(dòng)更多
-
10月31日立即下載>> 【限時(shí)免費(fèi)下載】TE暖通空調(diào)系統(tǒng)高效可靠的組件解決方案
-
即日-11.13立即報(bào)名>>> 【在線會(huì)議】多物理場仿真助跑新能源汽車
-
11月28日立即報(bào)名>>> 2024工程師系列—工業(yè)電子技術(shù)在線會(huì)議
-
12月19日立即報(bào)名>> 【線下會(huì)議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
-
即日-12.26火熱報(bào)名中>> OFweek2024中國智造CIO在線峰會(huì)
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書》
推薦專題
- 1 【一周車話】沒有方向盤和踏板的車,你敢坐嗎?
- 2 特斯拉發(fā)布無人駕駛車,還未迎來“Chatgpt時(shí)刻”
- 3 特斯拉股價(jià)大跌15%:Robotaxi離落地還差一個(gè)蘿卜快跑
- 4 馬斯克給的“驚喜”夠嗎?
- 5 大模型“新星”開啟變現(xiàn)競速
- 6 海信給AI電視打樣,12大AI智能體全面升級大屏體驗(yàn)
- 7 打完“價(jià)格戰(zhàn)”,大模型還要比什么?
- 8 馬斯克致敬“國產(chǎn)蘿卜”?
- 9 神經(jīng)網(wǎng)絡(luò),誰是盈利最強(qiáng)企業(yè)?
- 10 比蘋果偉大100倍!真正改寫人類歷史的智能產(chǎn)品降臨
- 高級軟件工程師 廣東省/深圳市
- 自動(dòng)化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市