CVPR 2020: 8比特數(shù)值也能訓練模型?商湯提出訓練加速新算法
本文作者來自商湯研究院鏈接與編譯團隊、高性能計算團隊和北航劉祥龍老師團隊,他們合作提出了用于加速卷積神經(jīng)網(wǎng)絡(luò)訓練過程的INT8訓練技術(shù)——在圖像分類任務(wù)和檢測任務(wù)上都僅僅損失微小的精度,且訓練過程相比浮點訓練加速了22%。
導讀:
在CVPR 2020上,商湯研究院鏈接與編譯團隊、高性能計算團隊和北航劉祥龍老師團隊合作提出了用于加速卷積神經(jīng)網(wǎng)絡(luò)訓練過程的INT8訓練技術(shù)。該工作通過將網(wǎng)絡(luò)的輸入、權(quán)重和梯度量化到8比特來加速網(wǎng)絡(luò)的前向傳播和反向傳播過程,縮短卷積神經(jīng)網(wǎng)絡(luò)訓練時間。
論文觀察到梯度的獨特分布給量化訓練帶來了極大挑戰(zhàn),為了解決梯度量化帶來的精度損失和不穩(wěn)定問題,該論文進行了量化訓練收斂穩(wěn)定性的理論分析并基于此提出了誤差敏感的學習率調(diào)節(jié)和基于方向自適應(yīng)的梯度截斷方法。同時為了保證更高的加速比,該論文還提出使用周期更新、量化卷積融合等技術(shù)來減少量化操作帶來的時間開銷。
應(yīng)用了上述方法之后,INT8訓練在圖像分類任務(wù)和檢測任務(wù)上都僅僅損失微小的精度,且訓練過程相比浮點訓練加速了22%。
動機與背景
卷積神經(jīng)網(wǎng)絡(luò)被廣泛應(yīng)用在多種計算機視覺任務(wù)中并且取得了優(yōu)異的精度。由于擁有龐大的參數(shù)量,訓練和部署卷積神經(jīng)網(wǎng)絡(luò)需要耗費大量計算資源和漫長的訓練時間,如何用更少資源訓練卷積神經(jīng)網(wǎng)絡(luò)一直是一個學術(shù)研究熱點,也是工業(yè)界關(guān)心的話題。
神經(jīng)網(wǎng)絡(luò)量化技術(shù)是一種使用定點計算代替浮點的加速技術(shù),目前被廣泛地應(yīng)用在神經(jīng)網(wǎng)絡(luò)部署中,可以極大地提升部署速度,并降低內(nèi)存資源占用,F(xiàn)有很多工作均表明將網(wǎng)絡(luò)前向過程的浮點計算替換成INT8計算,不會帶來明顯的精度下降[1][2]。
下圖展示了現(xiàn)代神經(jīng)網(wǎng)絡(luò)加速芯片對于不同精度計算的理論計算峰值對比,可以看到,INT8算力相比于FP32和FP/INT16均能有超過2倍峰值性能提升。
當考慮將神經(jīng)網(wǎng)絡(luò)量化技術(shù)應(yīng)用在卷積神經(jīng)網(wǎng)絡(luò)訓練中時,為了加速卷積的反向梯度傳播過程,不得不對梯度進行量化操作。在將浮點的梯度量化到INT8數(shù)值范圍內(nèi)之后,訓練過程變得極其不穩(wěn)定,并且收斂到非常差的精度。如何解決量化梯度給訓練帶來的收斂穩(wěn)定性問題,是十分重要的問題。與此同時,在提升訓練精度的同時,也不應(yīng)當進入過多額外的計算,否則加速效果將會大打折扣。
一方面是高效的計算峰值保障,一方面是困難重重的算法設(shè)計,這是INT8訓練技術(shù)的機遇與挑戰(zhàn)。
何為INT8訓練
標準的線性量化操作指的是,將一個浮點張量(tensor)進行線性映射,變換到整數(shù)空間中[3]。這個整數(shù)空間的大小由于量化比特數(shù)來決定,比如常見的8bit量化數(shù),就有256個取值,本文中使用的是對稱量化,因此量化數(shù)的取值是從-128到127。具體公式如下,其中x是被量化的數(shù)據(jù),q是量化后的數(shù)據(jù),s是量化系數(shù),clip是截斷函數(shù):
在8bit的場景里,截斷函數(shù)和量化系數(shù)的計算公式如下:
為了降低量化帶來的誤差,一個常見做法是對取整過程進行隨機化,使得取整函數(shù)從期望上更接近原始的數(shù),具體隨機取整的公式如下:
相反的,將8bit量化數(shù)變換回浮點的過程稱之為反量化。反量化公式如下所示,其中q為量化計算結(jié)果,s為量化系數(shù),
為反量化后的結(jié)果。
上圖的上半部分展示了標準的卷積神經(jīng)網(wǎng)絡(luò)量化計算前向過程,該過程被廣泛應(yīng)用在INT8部署加速中。在卷積計算之前,量化器會對輸入和權(quán)重進行量化操作,將浮點數(shù)量化到8bit數(shù)值上,通過INT8卷積計算核心,即可完成一次INT8前向計算,最終將求和得到的32bit數(shù)進行反量化操作回算到浮點數(shù)域中,以供給下一層計算使用。
INT8訓練的一個核心的加速點在于卷積計算的反向過程,上圖展示了INT8訓練中卷積計算在反向傳播過程中的計算細節(jié)。在卷積的反向梯度傳播過程,同樣的將梯度進行浮點量化操作,不過為了降低量化的誤差,針對梯度的量化采用了隨機取整操作。通過INT8的反向卷積計算核心,可以得到下一層所需的回傳梯度,以及當前層的權(quán)重所需的梯度。由于INT8反向卷積輸出的是32bit數(shù),與前傳類似,需要引入一次反量化操作,將32bit數(shù)反算回到浮點數(shù)域中。
梯度為何難以量化
為什么對梯度進行量化會給網(wǎng)絡(luò)訓練帶來如此大的影響?我們可以觀察訓練過程中的梯度分布情況來進一步的分析。
通過圖(a)中對比梯度和輸入、權(quán)重的分布,可以發(fā)現(xiàn):梯度分布相比輸入和權(quán)重分布更加尖銳,同時范圍更大。相比于輸入和權(quán)重,梯度有更多的值集中在0附近,但同時梯度還有許多較大值,讓梯度的分布范圍變得相當廣,這些特征都會導致梯度量化的量化誤差比輸入和權(quán)重更大。
圖(b)展示的是layers16隨著訓練,其梯度從epoch 0到epoch 300的變化情況。從中可以看出,隨著訓練的進行,梯度分布越變得更加尖銳,同時仍然保持著較廣的分布范圍,這意味著梯度量化的誤差會隨著訓練的進行變得越來越大。
梯度的分布隨網(wǎng)絡(luò)深度變化情況從圖(c)中可以看出。很容易發(fā)現(xiàn),卷積層的深度越淺,梯度分布越尖銳,這也會導致梯度量化的誤差更大。
從圖(d)中可以看出卷積的結(jié)構(gòu)也會影響梯度分布,對于MobileNetV2來說,conv2為depthwise卷積其相比conv1和conv3具有更加尖銳的分布。
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
10月31日立即下載>> 【限時免費下載】TE暖通空調(diào)系統(tǒng)高效可靠的組件解決方案
-
即日-11.13立即報名>>> 【在線會議】多物理場仿真助跑新能源汽車
-
11月28日立即報名>>> 2024工程師系列—工業(yè)電子技術(shù)在線會議
-
12月19日立即報名>> 【線下會議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會
-
即日-12.26火熱報名中>> OFweek2024中國智造CIO在線峰會
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍皮書》
推薦專題
- 高級軟件工程師 廣東省/深圳市
- 自動化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市