国产亚洲人在线观看不卡,少妇精品久久久一区二区

極鏈科技HPAIC人類蛋白質(zhì)圖譜分類挑戰(zhàn)賽金牌經(jīng)驗(yàn)分享

2019-01-18 11:06

模型

我們最終使用的基礎(chǔ)模型有Inceptionv3，Inceptionv4以及Xception三種，比賽前期我們測(cè)試了VGG，ResNet，ResNext，SeNet，但是效果不是很好，因此比賽末期沒(méi)有再進(jìn)行進(jìn)一步測(cè)試。

我們使用了512，650和800三種尺度來(lái)增加網(wǎng)絡(luò)對(duì)圖像的理解，另外每個(gè)尺度進(jìn)行10折交叉驗(yàn)證，保證驗(yàn)證集的劃分對(duì)網(wǎng)絡(luò)整體的影響，以及用驗(yàn)證集來(lái)評(píng)估模型預(yù)測(cè)的好壞和選擇模型及其對(duì)應(yīng)的參數(shù)。不同模型交叉驗(yàn)證時(shí)使用不同的隨機(jī)種子劃分驗(yàn)證集和訓(xùn)練集，以盡可能多的學(xué)到不同的樣本組合。

Inceptionv3和Inceptionv4的512的結(jié)果不好（0．55＋ public leaderboard 閾值0．15），因此沒(méi)有做交叉驗(yàn)證，只是用512尺度訓(xùn)練了基礎(chǔ)模型，并用在650和800的微調(diào)中。

模型修改：

1．第一層卷積的輸入通道數(shù)由3修改為4，保持其他卷積參數(shù)不變，從而使網(wǎng)絡(luò)應(yīng)對(duì)4通道輸入；

2．修改最后一的池化層為全局池化層，保證在多尺度時(shí)可以使用同一個(gè)網(wǎng)絡(luò)；

3．全局池化后增加一層128的全連接，然后接一層28的全連接。

訓(xùn)練

訓(xùn)練過(guò)程的參數(shù)如下：

loss： MultiLabelSoftMarginLoss

lr： 0．05（512，imagenet 預(yù)訓(xùn)練），0．01（650和800，512預(yù)訓(xùn)練）；

lrscheduler： steplr（gamma＝0．1，step＝6）

optimizer： SGD （adam，rms not well）

epochs： 25， 600和800一般在12－20直接提前結(jié)束，取loss最低的模型

10 folds CV

sampling weights：［1．0， 5．97， 2．89， 5．75， 4．64， 4．27， 5．46， 3．2， 14．48， 14．84， 15．14， 6．92， 6．86， 8．12， 6．32， 19．24， 8．48， 11．93， 7．32， 5．48， 11．99， 2．39， 6．3， 3．0， 12．06， 1．0， 10．39， 16．5］

scale：512，600，800

獨(dú)立閾值

為每一個(gè)類別找到一個(gè)合適的閾值是一件很困難的事，但是多閾值是提升分?jǐn)?shù)的關(guān)鍵，對(duì)我來(lái)說(shuō)，大概可以提升0．005～0．008。我們使用驗(yàn)證集來(lái)找閾值，我們訓(xùn)練單模型xception 512 ，驗(yàn)證集占13％。調(diào)整每一類的閾值使得f1 score達(dá)到最優(yōu)，不過(guò)我們發(fā)現(xiàn)稀有類別的閾值普遍很高，public lb會(huì)變差，因此我們只調(diào)整了驗(yàn)證集1000張以上的類別，稀有類別控制閾值為0．15 通過(guò)這種方法找到的閾值在其他模型或者集成的時(shí)候同樣有效。

測(cè)試

比賽結(jié)束以后我們將比賽中訓(xùn)練的模型重新提交查看private leaderboard成績(jī)，得到如下結(jié)果：

比賽過(guò)程中我們發(fā)現(xiàn)做了10 fold ensemble不一定比single fold好，因此我們?cè)谧罱K集成的時(shí)候部分模型只選擇了部分fold （根據(jù)loss選擇）。

檢索

我們使用檢索的方法（特征使用inceptionv4 800 的128維特征）查找test與hpa相似的圖片，使用余弦相似度進(jìn)行度量，我們發(fā)現(xiàn)了許多相似的甚至相同的圖片，直接使用相似度最高的300張圖片的結(jié)果進(jìn)行替換，分?jǐn)?shù)在public lb上提升0．01～0．015，不過(guò)在private LB中并沒(méi)有效果，官方在比賽過(guò)程中也說(shuō)明部分test圖像由于與HPA中部分圖像重合，不再進(jìn)行分?jǐn)?shù)計(jì)算。

集成

我們將inceptionv3 inceptionv4以及xception 800的10fold 模型的特征進(jìn)行concat（先進(jìn)行l(wèi)2），得到3840維的新特征，并在此基礎(chǔ)上設(shè)計(jì)了2層的全連接網(wǎng)絡(luò)進(jìn)行訓(xùn)練，并做10 fold CV，訓(xùn)練過(guò)程中使用不容參數(shù)訓(xùn)練過(guò)程如圖所示，我們?nèi)×薼oss最低的參數(shù)。結(jié)果融合后private lb：0．55150 public lb：0．62791。

雖然上面方法在public lb上分?jǐn)?shù)較高，但是當(dāng)與其他模型結(jié)果融合時(shí)，public LB的分?jǐn)?shù)反而降了，因此我們降低了這個(gè)模型的權(quán)重。

最后的結(jié)果是通過(guò)加權(quán)融合的方式得到的，權(quán)重根據(jù)模型的public lb分?jǐn)?shù)設(shè)置， inceptionv4 800和inceptionv3 800的權(quán)重最高，xception 650 最低，同時(shí)也用到了inceptionv4、xception其他尺度的部分fold。

<上一頁(yè) 1 2