訂閱
糾錯
加入自媒體

盤點2018年計算機(jī)視覺領(lǐng)域技術(shù)突破

2019-01-04 10:57
張康康
關(guān)注

回顧2018年,是屬于人工智能的一年,不論是Google、Facebook、Intel、阿里巴巴等通過產(chǎn)業(yè)布局進(jìn)入人工智能領(lǐng)域的互聯(lián)網(wǎng)企業(yè),亦或如曠視科技Face++、極鏈科技Video++、優(yōu)必選科技這樣直接以人工智能起家的原生技術(shù)企業(yè),都將AI注入到每個角落,掀起了一輪又一輪的技術(shù)高潮。

因而,除了NLP研究突破接連不斷,CV領(lǐng)域同樣精彩紛呈,伴隨著各式各樣落地應(yīng)用如此接近人們的生活,技術(shù)也變得越發(fā)成熟。本文整理了在2018年,在CV技術(shù)領(lǐng)域取得的最主要的一些重大技術(shù)突破。

盤點2018年計算機(jī)視覺領(lǐng)域技術(shù)突破

BigGAN發(fā)布

Ian Goodfellow在2014年設(shè)計了GAN,在之后的幾年中,圍繞這個概念產(chǎn)生了多種多樣的應(yīng)用程序。

其中,在ICLR 2019論文中出現(xiàn)的BigGAN,同樣是一個GAN,只不過更強(qiáng)大,是擁有了更聰明的課程學(xué)習(xí)技巧的GAN,由它訓(xùn)練生成的圖像連它自己都分辨不出真假,因為除非拿顯微鏡看,否則將無法判斷該圖像是否有任何問題,因而,它更被譽(yù)為史上最強(qiáng)的圖像生成器。

盤點2018年計算機(jī)視覺領(lǐng)域技術(shù)突破

在計算機(jī)圖像研究史上,BigGAN帶來的突破是劃時代的,比如在ImageNet上進(jìn)行128×128分辨率的訓(xùn)練后,它的IS得分能達(dá)到166.3,是之前最佳得分52.52分3倍;除了搞定128×128小圖之外,BigGAN還能直接在256×256、512×512的ImageNet數(shù)據(jù)上訓(xùn)練,生成更讓人信服的樣本。

英偉達(dá)Video-to-Video Synthesis

英偉達(dá)在2018年的收獲頗豐,他們的研究焦點從標(biāo)準(zhǔn)的監(jiān)督學(xué)習(xí)轉(zhuǎn)向更具挑戰(zhàn)性的機(jī)器學(xué)習(xí),如半監(jiān)督學(xué)習(xí),領(lǐng)域適應(yīng),主動學(xué)習(xí)和生成模型等。其中,由英偉達(dá)在2018年末發(fā)布的最大成果之一便是視頻到視頻生成(Video-to-Video synthesis),它通過精心設(shè)計的發(fā)生器、鑒別器網(wǎng)絡(luò)以及時空對抗物鏡,合成高分辨率、照片級真實、時間一致的視頻,實現(xiàn)了讓AI更具物理意識,更強(qiáng)大,并能夠推廣到新的和看不見的更多場景。

image.png

image.png

因而,Video-to-Video Synthesis也被看作是在過去幾年中,視頻領(lǐng)域的一次重大突破,畢竟從靜態(tài)框架轉(zhuǎn)換為動態(tài)框架的難度是很大的,但機(jī)器訓(xùn)練卻在盡量模擬預(yù)測視頻將會發(fā)生的情景,通過給定的輸入視頻學(xué)習(xí)映射函數(shù),產(chǎn)生仿真度極高的視頻內(nèi)容。

Fast.a(chǎn)i18分鐘訓(xùn)練ImageNet

在普遍認(rèn)知還停留在需要大量計算資源來執(zhí)行適當(dāng)?shù)纳疃葘W(xué)習(xí)任務(wù)時,F(xiàn)ast.a(chǎn)i通過使用16個公共AWS云實例,每個配備8個NVIDIA V100 GPU,運(yùn)行fast.a(chǎn)i和PyTorch,用18分鐘在ImageNet上將圖像分類模型訓(xùn)練到了93%的準(zhǔn)確率,刷新了一個新的速度記錄。

盤點2018年計算機(jī)視覺領(lǐng)域技術(shù)突破

這是一個令人驚喜的結(jié)果,尤其在公共基礎(chǔ)設(shè)施上訓(xùn)練ImageNet能達(dá)到這種準(zhǔn)確性,并且比其專有TPU Pod群集上的谷歌DAWNBench記錄快40%,運(yùn)行成本僅約為40美元。這意味著一個關(guān)鍵的里程碑出現(xiàn)了,幾乎所有人都可以在一個相當(dāng)大的數(shù)據(jù)集上訓(xùn)練大規(guī)模神經(jīng)網(wǎng)絡(luò)。

除了這些重要的節(jié)點之外,2018年的計算機(jī)視覺技術(shù)也部署更多方面,不論是亞馬遜發(fā)布Rekognition將計算機(jī)視覺置于開發(fā)人員、微軟為OneDrive和SharePoint推出了新的AI服務(wù)、Google相冊讓我們的記憶變得可搜索、還是每個場景下都正在逐漸普及的AI人臉識別等等,計算機(jī)視覺正在逐步滲透到我們生活的每個部分。

最后,最值得注意的是,計算機(jī)視覺的市場增長幾乎與其技術(shù)能力的增長是一樣快的,預(yù)計到 2025年,計算機(jī)視覺領(lǐng)域會帶來超過262億美元的收益,因而在人工智能的未來里,計算機(jī)視覺一定是最有力的表現(xiàn)形式,并將隨處可見。

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯
x
*文字標(biāo)題:
*糾錯內(nèi)容:
聯(lián)系郵箱:
*驗 證 碼:

粵公網(wǎng)安備 44030502002758號