頂會(huì)競(jìng)賽最后5天被Facebook超越,又大比分反超奪冠是什么體驗(yàn)?
所謂Re-Sampling,即指改進(jìn)data sampler對(duì)數(shù)據(jù)的采樣概率,來保證用來訓(xùn)練的數(shù)據(jù)的平衡性。具體做法如上方右圖,對(duì)所有的class以相同概率進(jìn)行采樣,采樣出class之后在每個(gè)class內(nèi)部再進(jìn)行數(shù)據(jù)采樣,這樣便可以保證每個(gè)類在網(wǎng)絡(luò)訓(xùn)練時(shí)的次數(shù)是相同的。
Re-Weighting指的是對(duì)數(shù)據(jù)進(jìn)行隨機(jī)采樣,且再計(jì)算loss時(shí),對(duì)不同類的樣本乘上不同權(quán)重。該權(quán)重等于,每個(gè)樣本對(duì)應(yīng)類別的數(shù)量比上所有圖片數(shù)量的倒數(shù)。例如對(duì)于對(duì)于aeroplane,有五張圖片,總共十張圖片,則對(duì)于aeroplane的加權(quán)就是10/5=2。如此操作,tail類的圖片雖然被采樣到的機(jī)會(huì)少,但是loss的加權(quán)大,從而可以實(shí)現(xiàn)平衡。 不過對(duì)于這兩種解決長(zhǎng)尾問題的策略,曠視南京研究院在CVPR 2020上的 Oral論文“BBN”指出,雖然RW和RS可以改善分類器性能,但是會(huì)影響backbone對(duì)數(shù)據(jù)的表示能力。
如這上圖所示,為了研究RS和RW對(duì)CNN 特征表示的影響和對(duì)分類器的影響,文章先用一種訓(xùn)練策略訓(xùn)練CNN backbone,然后再把backbone固定,重新訓(xùn)練分類器。 可以發(fā)現(xiàn)當(dāng)分類的訓(xùn)練方式不變時(shí),backbone使用CE的訓(xùn)練方式點(diǎn)數(shù)最高,而當(dāng)backbone的訓(xùn)練方式固定不變時(shí),使用RW和RS的方式訓(xùn)練分類器效果比較好。 這說明RW和RS的方法雖然可以提高網(wǎng)絡(luò)對(duì)長(zhǎng)尾數(shù)據(jù)的表現(xiàn),但是同時(shí)也會(huì)一定程度上損害網(wǎng)絡(luò)的表示能力。
為此,BBN解決該問題的做法是,將網(wǎng)絡(luò)分成兩個(gè)分支,一個(gè)分支接受從uniform sampler 采樣出的數(shù)據(jù),另外一個(gè)分支接受從reversed sampler 采樣出的數(shù)據(jù)。所謂reverse sampler,就是把每個(gè)類別被采樣到的概率取倒數(shù),從而使得tail類更容易被采樣出來。 sample出兩個(gè)batch的數(shù)據(jù)之后前傳經(jīng)過兩個(gè)網(wǎng)絡(luò)分支,進(jìn)一步對(duì)兩個(gè)分支的特征進(jìn)行mixup,最后做分類loss。需要注意的是,BBN為了不損害特征表示,設(shè)計(jì)了一個(gè)adaptor,該adaptor會(huì)隨著訓(xùn)練epoch的增加越來越傾向于增大reverse sampler 分支在mixup中的比重。 這樣BBN可以保證在訓(xùn)練初期,網(wǎng)絡(luò)通過正常的uniform sampler對(duì)數(shù)據(jù)學(xué)到一個(gè)良好的表征,在訓(xùn)練后期,這個(gè)表征會(huì)對(duì)reverse sampler 采樣出的數(shù)據(jù)進(jìn)行進(jìn)一步的學(xué)習(xí)。 雖然BBN可以很大程度上減緩長(zhǎng)尾數(shù)據(jù)對(duì)網(wǎng)絡(luò)特征表示的影響,但是與此同時(shí),BBN需要同時(shí)訓(xùn)練兩個(gè)網(wǎng)絡(luò)分支,占用兩倍于原來的顯存,并且因?yàn)檫@樣batchsize小了,訓(xùn)練時(shí)間需要更長(zhǎng),對(duì)于比賽而言略需改進(jìn)。
因此,參賽團(tuán)隊(duì)為了快速迭代,使用了一個(gè)BBN-style 的mixup策略。通過分別從uniform sampler和reversed sampler中采樣,之后將兩個(gè)sampler sample出的batch進(jìn)行mixup之后交給網(wǎng)絡(luò)訓(xùn)練,這樣網(wǎng)絡(luò)在訓(xùn)練時(shí)可以一定程度上見到足夠多的head類和tail類樣本,并且mixup本身也可以起到增強(qiáng)網(wǎng)絡(luò)泛化性的效果,從而可以提高網(wǎng)絡(luò)對(duì)長(zhǎng)尾數(shù)據(jù)的表現(xiàn)。
測(cè)試階段的增強(qiáng)策略 除上述工作外,在測(cè)試階段,團(tuán)隊(duì)還使用了一個(gè)增強(qiáng)策略tencrop。它將輸入圖片的四個(gè)角落和中心進(jìn)行crop獲得原圖的五個(gè)crop,之后將圖片進(jìn)行翻轉(zhuǎn)再crop,總獲得十個(gè)crop。通過將這些crop輸入給網(wǎng)絡(luò)進(jìn)行前傳,然后將十個(gè)預(yù)測(cè)結(jié)果進(jìn)行平均,從而能夠得到最后的預(yù)測(cè)結(jié)果。 下圖展示了曠視南京研究院參賽團(tuán)隊(duì)使用的所有的策略和它們?cè)趌eaderboard對(duì)應(yīng)的得分。
首先是224分辨率的ResNet50 baseline。該baseline使用交叉熵loss進(jìn)行訓(xùn)練,可以在leaderboard得到65.6%的分?jǐn)?shù);第二個(gè)模型對(duì)分辨率擴(kuò)大了一倍,使用448分辨率輸入,使用交叉熵loss訓(xùn)練,可以看到擴(kuò)大分辨率帶來的收益非常大,在leaderboard上漲了接近十個(gè)點(diǎn)。 因此擴(kuò)大分辨率這也是比賽很通用的CV的策略,基本上都可以實(shí)現(xiàn)漲點(diǎn)。 當(dāng)換用EfficientNet-b4,輸入分辨率也固定在了448,可以發(fā)現(xiàn)b4相對(duì)于ResNet50 的性能更好,同樣設(shè)置下漲了兩個(gè)點(diǎn)。 進(jìn)一步,當(dāng)在b4上加入測(cè)試時(shí)的tencrop,結(jié)果提升了一個(gè)多點(diǎn)。 當(dāng)開始將loss函數(shù)替換為label-smooth,且開始在訓(xùn)練時(shí)加入BBN style的mixup,網(wǎng)絡(luò)繼續(xù)上漲3個(gè)點(diǎn)。 此后一段時(shí)間內(nèi),點(diǎn)數(shù)都沒有再得到提升,經(jīng)過討論,團(tuán)隊(duì)開始考慮location信息的影響,并設(shè)計(jì)出使用gradient reversal layer進(jìn)行對(duì)location信息的混淆,突破了這個(gè)瓶頸,繼續(xù)上漲2個(gè)點(diǎn)。 最后一個(gè)改進(jìn)點(diǎn)涉及MegaDetector的BBox信息,使用上文提到的BBox Ensemble策略進(jìn)一步實(shí)現(xiàn)了漲點(diǎn)。并且在這過程中,團(tuán)隊(duì)還觀察到,隨著Ensemble的進(jìn)行,權(quán)重應(yīng)該適當(dāng)偏向于BBox內(nèi)的物體,這樣性能會(huì)更好。 到此時(shí),團(tuán)隊(duì)的得分在總榜上位列第一,并持續(xù)了近1個(gè)月。期間雖然也嘗試對(duì)模型進(jìn)行改進(jìn),但并沒有更新的發(fā)現(xiàn)。 到5月22日(最終截止日期前5天),F(xiàn)acebook團(tuán)隊(duì)突然以大比分反超。作為應(yīng)對(duì),曠視南京研究院團(tuán)隊(duì)緊急應(yīng)對(duì)現(xiàn)有模型方法進(jìn)行了全面分析,并發(fā)現(xiàn)之前一直沒有利用的一個(gè)重要信息,即視頻的序列信息。
事實(shí)證明,當(dāng)利用了序列信息后,模型的性能大幅提升了近10個(gè)點(diǎn)。對(duì)此趙冰辰也半開玩笑地說道:“存在一個(gè)強(qiáng)大對(duì)手的最好價(jià)值在于,它讓你不安于現(xiàn)狀,逼你跳出舒適圈,看到更好的自己! 由此,曠視南京研究院團(tuán)隊(duì)實(shí)現(xiàn)了被Facebook大幅超越,并在48小時(shí)內(nèi)又以更大比分優(yōu)勢(shì)重新登頂,最終奪得iWildCam全球冠軍壯舉! 另外,為了幫助大家在參與頂會(huì)競(jìng)賽時(shí)更好地進(jìn)行團(tuán)隊(duì)配合、項(xiàng)目管理,趙冰辰在下方還展示了其團(tuán)隊(duì)在比賽期間各個(gè)模塊的工作,以供同學(xué)們參考。
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
10月31日立即下載>> 【限時(shí)免費(fèi)下載】TE暖通空調(diào)系統(tǒng)高效可靠的組件解決方案
-
即日-11.13立即報(bào)名>>> 【在線會(huì)議】多物理場(chǎng)仿真助跑新能源汽車
-
11月28日立即報(bào)名>>> 2024工程師系列—工業(yè)電子技術(shù)在線會(huì)議
-
12月19日立即報(bào)名>> 【線下會(huì)議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
-
即日-12.26火熱報(bào)名中>> OFweek2024中國(guó)智造CIO在線峰會(huì)
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書》
推薦專題
- 1 【一周車話】沒有方向盤和踏板的車,你敢坐嗎?
- 2 特斯拉發(fā)布無人駕駛車,還未迎來“Chatgpt時(shí)刻”
- 3 特斯拉股價(jià)大跌15%:Robotaxi離落地還差一個(gè)蘿卜快跑
- 4 馬斯克給的“驚喜”夠嗎?
- 5 海信給AI電視打樣,12大AI智能體全面升級(jí)大屏體驗(yàn)
- 6 打完“價(jià)格戰(zhàn)”,大模型還要比什么?
- 7 馬斯克致敬“國(guó)產(chǎn)蘿卜”?
- 8 神經(jīng)網(wǎng)絡(luò),誰是盈利最強(qiáng)企業(yè)?
- 9 比蘋果偉大100倍!真正改寫人類歷史的智能產(chǎn)品降臨
- 10 諾獎(jiǎng)進(jìn)入“AI時(shí)代”,人類何去何從?
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市