国产一区二区免费高清成人高潮 ,无码精品视频在线网站,国产成人欧美精品视频99

現(xiàn)有新冠病毒診斷AI模型，幾乎毫無用處

2021-01-24 11:01

新型冠狀病毒對全球健康造成了嚴(yán)重的威脅，為了減輕醫(yī)療保健系統(tǒng)的負(fù)擔(dān)，也給患者提供最佳的護理，高效的診斷和疾病預(yù)后信息問題亟待解決。

理論上來說，在醫(yī)療資源有限的情況下，評估感染者風(fēng)險和感染結(jié)果的多變量模型可以幫助醫(yī)務(wù)人員對患者進行分類。從基于規(guī)則的評分系統(tǒng)到深度學(xué)習(xí)模型，大量預(yù)測模型都是開源的，并允許同行評論分析。
那么，我們應(yīng)該對這些模型抱有怎樣的期待呢？

頂級綜合醫(yī)學(xué)期刊《英國醫(yī)學(xué)雜志》（ The BMJ ）上發(fā)表的一項研究，便對現(xiàn)有的新冠模型進行系統(tǒng)性評估，主要包括以下三種功用的模型：普通人群風(fēng)險預(yù)測模型、實際感染者的診斷模型、新冠患者的預(yù)后模型，評估的部分包括模型開發(fā)和外部驗證研究。

然而，結(jié)果卻不盡人意�？梢哉f，現(xiàn)有的新冠病毒診斷AI模型，幾乎無用武之地。
收集過程

這支研究小組通過 Ovid、bioRxiv、medRxiv 、arXiv、PubMed 和 Embase 等學(xué)術(shù)系統(tǒng)，收集了 2020 年 1 月 3 日～2020 年 5 月 5 日之間發(fā)布的 covid－19 文獻。如果一篇文獻與基于新冠結(jié)果研究的多變量模型或評分系統(tǒng)相關(guān)，團隊就將它納入研究。

最終，他們收集到總共包括三種類型的預(yù)測模型：普通人群中新冠風(fēng)險的預(yù)測模型、疑似患者中實際感染者的診斷模型、新冠患者的預(yù)后模型。預(yù)測因素或結(jié)果對參考人群（例如，住院病人，門診病人或普通人群）、預(yù)測范圍（模型預(yù)測的距離）沒有限制。而另外的一些模擬疾病傳播或死亡率、診斷測試準(zhǔn)確性和發(fā)現(xiàn)預(yù)測指標(biāo)等相關(guān)研究不予考慮。

從第二次系統(tǒng)性評估開始，相關(guān)文獻由 AI 驅(qū)動的文本分析工具檢索，以優(yōu)先考慮靈敏度。研究者通過 EPPI－Reviewer 對標(biāo)題、摘要和全文進行重復(fù)篩查，對于有爭議的文章，則通過討論選取。

研究使用基于 CHARMS（針對預(yù)測模型研究的系統(tǒng)評價的嚴(yán)格評估和數(shù)據(jù)提取）清單和 PROBAST（偏倚風(fēng)險評估工具）的標(biāo)準(zhǔn)化數(shù)據(jù)分析表來評估預(yù)測模型。

通過系統(tǒng)搜索，研究者檢索了 14209 個標(biāo)題，整個篩選過程如下圖所示：

PRISMA（為系統(tǒng)評價和變換分析選取報告）研究是否采納文獻的流程圖
調(diào)查結(jié)果

最終篩選出的 107 項研究，團隊使用 PROBAST 評估，這是一項專門為預(yù)測模型偏倚風(fēng)險設(shè)計的評估工具。

結(jié)果發(fā)現(xiàn)，有 53 項在訓(xùn)練集（參考人群）方面存在較高的偏倚風(fēng)險，也就是說，模型的參考人群可能無法代表目標(biāo)人群。其中 26 項研究都沒有對偏倚評估風(fēng)險作出清楚的報告。

有 15 項對預(yù)測集存在很高的偏倚風(fēng)險，這表明預(yù)測變量并不一定適用于模型，定義不明確或受預(yù)測結(jié)果影響。

研究者對一項診斷成像研究使用了簡單的評分規(guī)則，它呈現(xiàn)了較低的預(yù)測偏倚風(fēng)險。

因為該文獻缺乏有關(guān)預(yù)處理步驟（例如圖像裁剪）的明確信息，而復(fù)雜機器學(xué)習(xí)算法是用一種復(fù)雜的方式將圖像轉(zhuǎn)換成預(yù)測因子，分析人員對原模型的預(yù)測因子尚不清楚，這其實就很難評估它的偏倚風(fēng)險。大多數(shù)模型使用易于評估的結(jié)果（例如，死亡、確診等），而在 19 項研究中仍存在因結(jié)果評估引起的偏倚的擔(dān)憂，比如使用了主觀或代理結(jié)果（例如，非新冠的嚴(yán)重呼吸道感染）。

除了一項研究之外，所有其他研究在分析的數(shù)據(jù)集上都有較高的偏倚風(fēng)險。

許多研究的樣本量較小，這導(dǎo)致過擬合的風(fēng)險增加，尤其是在使用復(fù)雜的建模策略的情況下。三項研究沒有報告模型的預(yù)測性能，四項研究僅報告了表面性能（訓(xùn)練集和測試集相同，未對潛在的過度擬合進行調(diào)整）。
只有 13 個研究評估了校準(zhǔn)，但兩項研究中檢查校準(zhǔn)的方法可能欠佳。

其中一個研究的 25 個模型使用了外部驗證的方式（在一個獨立的數(shù)據(jù)集中驗證，訓(xùn)練集和測試集分開），但在其中的 11 個模型中，用于外部驗證的數(shù)據(jù)集可能無法代表目標(biāo)人群。還有一個研究使用了新冠疫情之前的數(shù)據(jù)。因此，如果將模型應(yīng)用于目標(biāo)人群，則預(yù)測效果可能會有所不同。在一項研究中，通常用于預(yù)后（區(qū)分、校準(zhǔn)）的性能統(tǒng)計數(shù)據(jù)沒有公布。

但也有表現(xiàn)還不錯的模型。Gozes、Fu、Chassagnon、Hu、Kurstjens 和 Vaid 等人的研究在外部驗證集上具有令人滿意的預(yù)測性能，但尚不清楚他們是如何收集外部驗證數(shù)據(jù)的，以及數(shù)據(jù)是否具有代表性。Wang、Barda、Guo、Tordjman 和 Gong 等人的研究在可能沒有偏倚的驗證數(shù)據(jù)集上獲得了令人滿意的效果，但是數(shù)據(jù)集的數(shù)據(jù)量少于外部驗證應(yīng)有的數(shù)據(jù)量（100）。

Diaz－Quijano 的研究也具有不錯的外部驗證效果，但由于未進行聚合酶鏈反應(yīng)（PCR）測試，因此數(shù)據(jù)集中的許多患者不得不被排除在外。

目前，社會可能亟需診斷和預(yù)后模型來幫助醫(yī)務(wù)人員更加快速有效地投入工作，這也許會促使政府和醫(yī)療機構(gòu)過早地實施預(yù)測模型。

但介于所有的 145 個預(yù)測模型都有很大的偏倚風(fēng)險，并且所有模型都缺乏外部驗證的證據(jù)，在新冠疫情的大背景下，模型的過早使用可能弊大于利。

因此，研究人員不建議目前在實踐中使用任何模型。

他們也推薦，未來的模型研究應(yīng)側(cè)重于驗證、比較、改進和更新有前途的可用預(yù)測模型，而非著力開發(fā)新的預(yù)測模型。