訂閱
糾錯(cuò)
加入自媒體

Holopix50k發(fā)布: 最多最豐富的雙目數(shù)據(jù)集大幅提升多個(gè)相關(guān)任務(wù)性能?

由于這一數(shù)據(jù)集主要集中于針對(duì)水平排列相機(jī)的立體視覺(jué),而在垂直方向上的視差會(huì)影響立體視覺(jué)匹配算法的性能,需要去除具有垂直視差的圖像。在這樣的篩選后剩下約60k的圖像對(duì)。

垂直視差造成的匹配性能下降,c和d分別是垂直方向上有2像素和5個(gè)像素視差下的匹配結(jié)果。

由于絕大多數(shù)照片是由Hydrogen One拍攝的,其后攝基線只有12mm前攝則為5mm,場(chǎng)景中包含的視差信息應(yīng)該是處于有限范圍內(nèi)的,所有研究人員通過(guò)視差分析模型去除了包含極端誤差的圖像和立體特征較差的圖像對(duì),最終得到了約50k的立體視覺(jué)圖像對(duì)。

為了探索數(shù)據(jù)集的分布,研究人員利用在coco數(shù)據(jù)集上預(yù)訓(xùn)練的Mask-RCNN目標(biāo)檢測(cè)器對(duì)每一對(duì)圖像的左圖來(lái)進(jìn)行檢測(cè)分析,結(jié)果表明其中包含了大量豐富的常見(jiàn)物體,由于這是社交媒體平臺(tái),所以其中會(huì)包含很多的人物,共檢測(cè)到了約21k個(gè)人體實(shí)例。此外數(shù)據(jù)集中還包含了風(fēng)景和肖像攝影,為數(shù)據(jù)集貢獻(xiàn)了可觀的多樣性。

Holopix中物體的詞云分布包含了很多常見(jiàn)的物體

定量測(cè)評(píng)

為了展現(xiàn)數(shù)據(jù)集的優(yōu)勢(shì),研究人員利用熵、BRISQUE、SR-metric和ENIQA等指標(biāo)比較了Holopix與現(xiàn)有的數(shù)據(jù)集,結(jié)果如下表所示 :

除了數(shù)據(jù)集的數(shù)量顯著高于其他數(shù)據(jù)集外,可以看到其具有最高的SR指標(biāo),意味數(shù)據(jù)集的質(zhì)量在人類感知下是最高的、熵值第二高意味著圖像中包含的信息也很豐富。
研究人員將數(shù)據(jù)集按照分辨率分為了HD(720p)和SD(360p)兩個(gè)子集,其指標(biāo)在數(shù)據(jù)集比較中都處于top2的范圍內(nèi)。

除了數(shù)據(jù)集本身的比較外,研究人員還利用這一數(shù)據(jù)集重新訓(xùn)練了幾個(gè)關(guān)鍵的立體視覺(jué)任務(wù)模型,都得到了大幅的性能提升。

針對(duì)圖像超分辨任務(wù),采用了PASSRNet模型進(jìn)行4x圖像超分辨,在Holopix50k數(shù)據(jù)集上訓(xùn)練的結(jié)果與Flickr1024上的結(jié)果相比具有非常大的性能提升。下表顯示了隨著訓(xùn)練數(shù)據(jù)集的增加,得到的模型在不同測(cè)試集上的結(jié)果也有著顯著提升。

下圖可以看到基于這一大型數(shù)據(jù)集訓(xùn)練的結(jié)果要明顯優(yōu)于Flickr1024數(shù)據(jù)集的結(jié)果,細(xì)節(jié)得到更為豐富的重建:

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯(cuò)
x
*文字標(biāo)題:
*糾錯(cuò)內(nèi)容:
聯(lián)系郵箱:
*驗(yàn) 證 碼:

粵公網(wǎng)安備 44030502002758號(hào)