无码国产福利在线观看1000集,成人免费无码视频在线网站,欧美日韩精品成人在线

極鏈科技HPAIC人類蛋白質(zhì)圖譜分類挑戰(zhàn)賽金牌經(jīng)驗分享

2019-01-18 11:06

近期，由Kaggle主辦，Leica Microsystems和NVIDIA贊助的HPAIC（Human Protein Atlas Image Classification）競賽正式結(jié)束。比賽為期三個月，共有來自全球的2236個隊伍參加，極鏈AI研究院與工程院最終獲得挑戰(zhàn)賽金牌。

比賽介紹

蛋白質(zhì)是人體細胞中的“行動者”，執(zhí)行許多共同促進生命的功能。蛋白質(zhì)的分類僅限于一種或幾種細胞類型中的單一模式，但是為了完全理解人類細胞的復雜性，模型必須在一系列不同的人類細胞中對混合模式進行分類。

可視化細胞中蛋白質(zhì)的圖像通常用于生物醫(yī)學研究，這些細胞可以成為下一個醫(yī)學突破的關(guān)鍵。然而，由于高通量顯微鏡的進步，這些圖像的生成速度遠遠超過人工評估的速度。因此，對于自動化生物醫(yī)學圖像分析以加速對人類細胞和疾病的理解，需要比以往更大的需求。

雖然這是生物學方面的競賽，但是其本質(zhì)是機器視覺方向的圖像多標簽分類問題，參賽隊伍也包括許多機器視覺和機器學習領(lǐng)域的競賽專家。

數(shù)據(jù)分析

官方給我們提供了兩種類型的數(shù)據(jù)集，一部分是512x512的png圖像，一部分是2048x2048或3072x3072的TIFF圖像，數(shù)據(jù)集大概 268G，其中訓練集：31072 x 4張，測試集：11702 x 4張。

一個蛋白質(zhì)圖譜由4種染色方式組成（red，green，blue，yellow），圖像示例如下：

我們將4個通道合并成3通道（RYB）可視化的圖像如下所示：

在本次競賽中一共有28個類別，比如 Nucleoplasm、Nuclear membrane等，每個圖譜圖像都可以有一個或者多個標簽。標簽數(shù)量統(tǒng)計如下：

可以發(fā)現(xiàn)標簽數(shù)量集中在1－3個，但是仍然會有圖像有5個標簽，給比賽增加了一定的難度。

另一方面的難點是數(shù)據(jù)集中樣本數(shù)量很不均勻，圖像最多的類別有12885張，而圖像最少的類別只有11張圖像，這給競賽造成很大的困難，樣本數(shù)量分布情況可以在圖中看出。

在比賽過程中逐步有參賽者發(fā)現(xiàn)官方的額外數(shù)據(jù)集HPAv18，并得到官方授權(quán)，這些數(shù)據(jù)集有105678張，很大程度的擴大了樣本數(shù)量，同時給我們提供了很大的幫助。

環(huán)境資源

硬件方面我們使用了4塊NVIDIA TESLA P100顯卡，使用pytorch作為我們的模型訓練框架。

圖像預處理

HPAv18 圖像與官方給出的圖像有一定的差別，雖然也是由4中染色方式組成，但是每個染色圖像是一個RGB圖像，而不是官方的單通道圖像，而且RGB三個通道的值差別較大，我們對這些圖像做了預處理，對每個RGB圖像只取一個通道（r＿out＝r，g＿out＝g，b＿out＝b，y＿out＝b），并將這些圖像縮放到512x512和1024x1024兩種尺度。