訂閱
糾錯
加入自媒體

一文帶你重新思考BatchNorm中的Batch

前言

公眾號在前面發(fā)過三篇分別對BatchNorm解讀、分析和總結(jié)的文章(文章鏈接在文末),閱讀過這三篇文章的讀者對BatchNorm和歸一化方法應(yīng)該已經(jīng)有了較深的認識和理解。在本文將介紹一篇關(guān)于BatchNorm舉足輕重的論文,這篇論文對進行了很多實驗,非常全面地考慮了BatchNorm中的Batch。

歡迎關(guān)注公眾號 CV技術(shù)指南 ,專注于計算機視覺的技術(shù)總結(jié)、最新技術(shù)跟蹤、經(jīng)典論文解讀。

Motivation

BatchNorm 區(qū)別于其他深度學(xué)習(xí)算子的關(guān)鍵因素是它對批量數(shù)據(jù)而不是單個樣本進行操作。BatchNorm 混合批次中的信息以計算歸一化統(tǒng)計數(shù)據(jù),而其他算子獨立處理批次中的每個樣本。因此,BatchNorm 的輸出不僅取決于單個樣本的屬性,還取決于樣本分組的方式。

CVPR2021 | 重新思考BatchNorm中的Batch

如上左圖所示,按照采樣大小,上中下三圖表示BatchNorm的采樣方式分別為entire dataser、mini-batches和subset of mini-batches。

如上右圖所示,按照采樣風(fēng)格,上中下三圖表示BatchNorm的采樣方式分別為entire domain、each domain和mixture of each domain。

論文研究了 BatchNorm 中批處理的這些選擇,證明了在不考慮批處理構(gòu)建的不同選擇的情況下,應(yīng)用批處理規(guī)范可能會在許多方面產(chǎn)生負面影響,但可以通過在批處理方式上做出謹慎選擇來提高模型性能。

Review of BatchNorm

CVPR2021 | 重新思考BatchNorm中的Batch

在一個mini-batches中,在每一BN層中,對每個通道計算它們的均值和方差,再對數(shù)據(jù)進行歸一化,歸一化的值具有零均值和單位方差的特點,最后使用兩個可學(xué)習(xí)參數(shù)gamma和beta對歸一化的數(shù)據(jù)進行縮放和移位。

此外,在訓(xùn)練過程中還保存了每個mini-batches每一BN層每一通道的均值和方差,最后求所有mini-batches均值和方差的期望值,以此來作為推理過程中該BN層各自通道的均值和方差。

Whole Population as a Batch

在訓(xùn)練期間,BatchNorm 使用mini-batch的樣本計算歸一化統(tǒng)計數(shù)據(jù)。但是,當(dāng)模型用于測試時,通常不再有 mini-batch 的概念。最初提出BatchNorm是在測試時,特征應(yīng)該通過在整個訓(xùn)練集上計算的總體統(tǒng)計數(shù)據(jù) μ、σ 進行歸一化。這里的 μ、σ 被定義為批次統(tǒng)計量 ?, σ 使用整個population作為“Batch”。

廣泛使用EMA 算法來計算 ?, σ,但它并不總是能準確地訓(xùn)練population數(shù)據(jù),因此論文提出了新的算法PreciseBN。

Inaccuracy of EMA

EMA: exponential moving average

算法公式如下:

CVPR2021 | 重新思考BatchNorm中的Batch

由于以下原因,EMA會導(dǎo)致模型估計Population數(shù)據(jù)次優(yōu):

當(dāng) λ 很大時,統(tǒng)計數(shù)據(jù)收斂緩慢。由于每次更新迭代僅對 EMA 貢獻一小部分 (1-λ),因此 EMA 需要大量更新才能收斂到穩(wěn)定的估計值。隨著模型的更新,情況變得更糟:EMA 主要由過去的輸入特征主導(dǎo),隨著模型的訓(xùn)練這些特征已經(jīng)過時。

當(dāng) λ 較小時,EMA 統(tǒng)計數(shù)據(jù)由較少數(shù)量的近期mini-batch主導(dǎo),并不代表整個populatioin。

PreciseBN

PreciseBN通過以下兩個步驟來近似Population統(tǒng)計數(shù)據(jù)。

(固定)模型在許多小批量上應(yīng)用來收集Batch統(tǒng)計數(shù)據(jù);

將per-batch統(tǒng)計數(shù)據(jù)聚合為總體統(tǒng)計數(shù)據(jù)。

與EMA相比,PreciseBN多了兩個重要的屬性:

統(tǒng)計數(shù)據(jù)完全根據(jù)固定模型狀態(tài)計算,與使用模型歷史狀態(tài)的 EMA 不同;

所有樣本的權(quán)重相等。

實驗結(jié)論

CVPR2021 | 重新思考BatchNorm中的Batch

1.PreciseBN比BN更穩(wěn)定。

CVPR2021 | 重新思考BatchNorm中的Batch

2.當(dāng)batchsize很大時,EMA算法不穩(wěn)定。作者認為不穩(wěn)定性是由大批量訓(xùn)練中損害 EMA 統(tǒng)計收斂性的兩個因素造成的:(1)32 倍大的學(xué)習(xí)率導(dǎo)致特征發(fā)生更劇烈的變化;(2) 由于總訓(xùn)練迭代次數(shù)減少,EMA 的更新次數(shù)減少了 32 倍。

3.PreciseBN只需要個樣本就可以得到穩(wěn)定的結(jié)果。

4.小Batch會累計誤差。

Batch in Training and Testing

在訓(xùn)練和推理期間使用的Batch統(tǒng)計量不一致:訓(xùn)練期間使用mini-batch統(tǒng)計數(shù)據(jù),推理期間使用訓(xùn)練期間所有mini-batch通過EMA算法近似得到的population統(tǒng)計數(shù)據(jù)。論文分析了這種不一致對模型性能的影響,并指出在某些情況下可以輕松消除不一致以提高性能。

為了避免混淆,將SGD batch size或者total batch size定義為所有GPU上總的batch size大小,將normalization batch size定義為單個GPU上的batch size大小。(注:這一點在《歸一化方法總結(jié)》一文中有提到,當(dāng)使用多個GPU時,實際的mini-batch統(tǒng)計數(shù)據(jù)只基于batchsize/GPU數(shù)的樣本上統(tǒng)計)

normalization batch size對訓(xùn)練噪聲和訓(xùn)練測試不一致性有直接影響:較大的Batch將mini-batch統(tǒng)計數(shù)據(jù)推向更接近總體統(tǒng)計數(shù)據(jù),從而減少訓(xùn)練噪聲和訓(xùn)練測試不一致

為了便于分析,論文觀察了3種不同評估方法的錯誤率:

在訓(xùn)練集上對mini-batch統(tǒng)計量進行評估

在驗證集上對mini-batch統(tǒng)計量進行評估

在驗證集上對population統(tǒng)計量進行評估

實驗結(jié)論

CVPR2021 | 重新思考BatchNorm中的Batch

小的normalization batch size(例如 2 或 4)性能不佳,但如果使用mini-batch統(tǒng)計數(shù)據(jù)(藍色曲線),該模型實際上具有不錯的性能。結(jié)果表明,mini-batch統(tǒng)計和總體統(tǒng)計之間的巨大不一致是影響mini-batch性能的主要因素。

另一方面,當(dāng)normalization batch size較大時,小的不一致可以提供正則化以減少驗證錯誤。這導(dǎo)致紅色曲線比藍色曲線表現(xiàn)更好。

基于以上結(jié)論,論文給出兩個消除不一致用來提高性能的方法

Use Mini-batch in Inference

Use Population Batch in Training

Batch from Different Domains

BatchNorm 模型的訓(xùn)練過程可以被視為兩個獨立的階段:首先通過 SGD 學(xué)習(xí)特征,然后通過 EMA 或 PreciseBN 使用這些特征訓(xùn)練總體統(tǒng)計數(shù)據(jù)。我們將這兩個階段稱為“SGD training”和“population statistics training”。

在本節(jié)中,論文分析出現(xiàn)domain gap的兩種情況:當(dāng)模型在一個domain上訓(xùn)練但在其他domain上測試時,以及當(dāng)模型在多個domain上訓(xùn)練時。這兩者都會使 BatchNorm 的使用復(fù)雜化。

實驗結(jié)論

  1. 當(dāng)存在顯著的域偏移時,模型在對評估中使用的domain會比使用 SGD 訓(xùn)練,進行總體統(tǒng)計訓(xùn)練后獲得最佳錯誤率。直觀地說,根據(jù)domain組成Batch可以減少訓(xùn)練測試的不一致并提高對新數(shù)據(jù)分布的泛化能力。

  2. BatchNorm 在mixture of multi-domain data上的domain-specific training在以前的工作中經(jīng)常被提出,名稱為“Domain-Specific BN”、“Split BN”、“Mixture BN”,“Auxiliary BN”,“Transferable Norm”。這些方法都包含以下三種選擇中的一些。

Domain-specific SGD training

Domain-specific population statistics

Domain-specific affine transform

通過消除上述三個選擇,我們表明在 SGD training和population statistics training之間使用一致的策略很重要,盡管這種實現(xiàn)可能看起來不直觀。

Information Leakage within a Batch

我在《歸一化方法總結(jié)》中總結(jié)到,BN的三個缺陷之一便是當(dāng)mini-batch中的樣本非獨立同分布時,性能比較差,作者認為這是由于Information Leakage導(dǎo)致的。

論文實驗發(fā)現(xiàn),當(dāng)使用random采樣的mini-batch統(tǒng)計量時,驗證誤差會增加,當(dāng)使用population統(tǒng)計量時,驗證誤差會隨著epoch的增加逐漸增大,驗證了BN信息泄露問題的存在。

為了處理信息泄露問題,之前常見的做法是使用SyncBN,來弱化mini-batch內(nèi)樣本之間的相關(guān)性。另一種解決方法是在進入head之前在GPU之間隨機打亂RoI features,這給每個GPU分配了一個隨機的樣本子集來進行歸一化,同時也削弱了min-batch樣本之間的相關(guān)性,如下圖所示。

CVPR2021 | 重新思考BatchNorm中的Batch

如下圖所示,實驗證明 shuffling和 SyncBN 都有效地解決了信息泄漏問題,允許head在測試時很好地概括population statistics。

在速度方面,對于深度模型,shuffle 需要較少的 cross-GPU 同步,但每次同步傳輸?shù)臄?shù)據(jù)比 SyncBN 層傳輸?shù)臄?shù)據(jù)多。因此,它們的相對效率因模型架構(gòu)而異。據(jù)比SyncBN多。因此,shuffling和SyncBN的相對效率跟具體模型架構(gòu)相關(guān)。

CVPR2021 | 重新思考BatchNorm中的Batch

總結(jié)

本文回顧了BatchNorm算法;分析了使用mini-batches計算的統(tǒng)計數(shù)據(jù)和基于population作為batch計算的統(tǒng)計數(shù)據(jù)的效果,提出了PreciseBN近似統(tǒng)計算法,該算法相比于常用的EMA算法有更穩(wěn)定的效果;分析了根據(jù)不同domain來組成mini-batch的效果差異;分析了處理mini-batch中的樣本非獨立同分布情況的兩種方法。

結(jié)合前面的三篇文章《Batch Normalization》、《可視化的BatchNorm--它的工作方式以及為什么神經(jīng)網(wǎng)絡(luò)需要它》、《歸一化方法總結(jié) | 又名"BN和它的后浪們"》,相信讀者會對BatchNorm會有一個非常全面的認識,并進一步加深對神經(jīng)網(wǎng)絡(luò)的理解。

本文來源于公眾號 CV技術(shù)指南 的論文分享系列。

歡迎關(guān)注公眾號 CV技術(shù)指南 ,專注于計算機視覺的技術(shù)總結(jié)、最新技術(shù)跟蹤、經(jīng)典論文解讀。

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯
x
*文字標題:
*糾錯內(nèi)容:
聯(lián)系郵箱:
*驗 證 碼:

粵公網(wǎng)安備 44030502002758號