侵權(quán)投訴
訂閱
糾錯
加入自媒體

NVIDIA Clara 能讓醫(yī)療AI開發(fā)變得有多容易?

2003年,當(dāng)一種冠狀病毒引發(fā)的非典疫情席卷亞洲時,互聯(lián)網(wǎng)尚處于萌芽期,互聯(lián)網(wǎng)在醫(yī)療場景中還沒有落地,人們僅能前往醫(yī)院等待治療。那時,影像科總是人潮涌動,很多患者因為在醫(yī)院聚集而遭受感染。

今年,一種新的冠狀病毒帶著更強的傳染性席卷全球,但中國僅花費不到兩個月,便控制住了病毒在湖北以外地區(qū)的傳播。在AI的幫助,疫區(qū)影像科的診斷效率迅速上升,患者聚集情況大幅改善;新藥研發(fā)公司也通過創(chuàng)新的基因分析手段探索病毒的RNA結(jié)構(gòu),短短數(shù)日便能篩選出1000多個RNA聚合酶核苷類抑制劑化合物的可編輯結(jié)構(gòu)化數(shù)據(jù)。

正如我們在疫情之中觀察到的,人工智能輔助診斷、基因分析等技術(shù)正因為其廣袤的前景而吸引著越多越多的研究人員進入其中,但由于行業(yè)自身的高門檻,許多擁有豐富經(jīng)驗的醫(yī)生、學(xué)者難免在研究路上受挫。

如今,為了讓更多的開發(fā)者能夠體驗到NVIDIA的算力支持,并以更加簡單的方式對數(shù)據(jù)進行編輯,NVIDIA在EGX、DGX、云計算服務(wù)之上開發(fā)了Clara框架,為研究人員提供聯(lián)邦學(xué)習(xí)、遷移學(xué)習(xí)等服務(wù),通過降低數(shù)據(jù)門檻的方式,推動研究人員把重心回歸研究本身。

什么是Clara

NVIDIA正式發(fā)布Clara平臺是在2018年的RSNA之上,那時NVIDIA的目的僅是為影像學(xué)AI研究者提供一個醫(yī)學(xué)影像的軟件開發(fā)工具,以標(biāo)準(zhǔn)化影像數(shù)據(jù),并提升AI訓(xùn)練速度。

隨后,NVIDIA的開發(fā)者發(fā)現(xiàn),基因組是一個更為龐大的數(shù)據(jù)源,要處理億級的堿基配對,必須找到更理想的算力來源,才能保證試驗在成本上可行。在2019年蘇州舉辦的GTC大會之上,基因組學(xué)已經(jīng)成為Clara要啃掉的另一塊蛋糕。

到了今天,NVIDIA Clara的定位于面向醫(yī)療開發(fā)者的智能計算軟件平臺。接下來,所有醫(yī)療行業(yè)的解決方案都會整合進Clara,NVIDIA意欲打造一個全能的“醫(yī)療百寶袋”,為更想要探索醫(yī)療領(lǐng)域的開拓者提供高效便捷的數(shù)據(jù)分析工具。

截屏2020-04-02 下午5.42.08.png

NVIDIA Clara

從整體上看,NVIDIA Clara包含了GPU加速庫、3個SDK以及一系列參考應(yīng)用。在這一階段下,Clara能夠為科研工作者提供的服務(wù)主要聚集于醫(yī)學(xué)影像領(lǐng)域與基因分析領(lǐng)域,而這兩個領(lǐng)域,正因為大數(shù)據(jù)的浪潮而飛速發(fā)展。

醫(yī)學(xué)影像應(yīng)用:用AI幫助開發(fā)者標(biāo)注3D影像

在醫(yī)學(xué)影像中,如果一個醫(yī)院或者一個企業(yè)想利用 AI技術(shù)構(gòu)建一個深度學(xué)習(xí)算法,并將其投入使用,那么需要完成4個步驟的工作。

數(shù)據(jù)是構(gòu)建AI的第一步,在獲得原始數(shù)據(jù)后,研究人員首先需要對數(shù)據(jù)進行特定的標(biāo)注,如標(biāo)注出肺部CT影像中的結(jié)節(jié)部分。要構(gòu)建一個運行優(yōu)異的AI算法,這一步操作至關(guān)重要。

有了標(biāo)注數(shù)據(jù)后,研究人員便需要將數(shù)據(jù)導(dǎo)入到選定的AI模型中,開發(fā)適合于研究人員需求的深度學(xué)習(xí)算法。從國內(nèi)的情況而言,很多研究人員通常是使用開源算法進行二次開發(fā),或是借助于其他領(lǐng)域表現(xiàn)良好的算法進行遷移。

第三步是通過測試集對已有的算法進行檢驗。研究人員需要把AI模型放到實際之中,觀察AI的實際運行情況,如果算法不能很好滿足測試集的要求,研究人員可能就需要修改算法參數(shù),重新開始訓(xùn)練。

當(dāng)研究人員獲得測試表現(xiàn)良好的算法后,便可以嘗試將其部署于設(shè)備端,在真實的醫(yī)療診斷環(huán)境中進行推理工作。到此為止,AI的開發(fā)工作便已基本完成。

NVIDIA開發(fā)Clara AI應(yīng)用平臺的目的就是為了讓上述的四個步驟標(biāo)準(zhǔn)化、簡單化,讓研究人員可以更加專注于醫(yī)學(xué)本身的研究。

以數(shù)據(jù)標(biāo)注為例,這一工作本是一件體力活,是“人工”跨向“智能”不可避免的重復(fù)性工作,而醫(yī)生不可能將太多的時間花在像素點連線之上。所以,一般AI企業(yè)選擇從醫(yī)院尋找剛畢業(yè)的研究生進行勾畫,其成本在每組數(shù)據(jù)20-30元,實習(xí)生處理一組低層數(shù)據(jù)通常需要20-40分鐘,若要使勾畫更精細(xì),則需花費1-2小時的時間。

這種數(shù)據(jù)獲取方式存在兩個重要的問題,一是人工智能訓(xùn)練需要的數(shù)據(jù)量大,企業(yè)很難找到足夠多的實習(xí)生進行勾畫,成本也非常高昂;其次,影像的勾畫通常對工作人員的資歷要求較為嚴(yán)格,實習(xí)生常常會出現(xiàn)結(jié)節(jié)遺漏、標(biāo)注錯誤等現(xiàn)象。

從這一需求出發(fā),NVIDIA在Clara Train SDK中植入了深度學(xué)習(xí)輔助標(biāo)注的組件AI Annotation Server,開發(fā)者可直接使用這一組件對醫(yī)學(xué)影像進行標(biāo)注。

NVIDIA的實驗數(shù)據(jù)顯示,應(yīng)用這一工具包后,單個肺結(jié)節(jié)的標(biāo)注時間可降至8-15分鐘,醫(yī)生的標(biāo)注效率可提升4-8倍。此外,通過粗略計算,胰腺的標(biāo)注速度可提升4倍,脾的標(biāo)注速度可以提升10倍。

此外,在DGX的加速下,NVIDIA可以將數(shù)周才能完成的計算任務(wù)提速至數(shù)小時,這將大幅降低醫(yī)療AI企業(yè)的試錯成本,企業(yè)甚至可以同步開展多個算法測試。人工智能的產(chǎn)出,甚至是發(fā)展,都會因此大大提速。

醫(yī)學(xué)影像應(yīng)用:用聯(lián)邦學(xué)習(xí)破除AI模型魯棒性難題

即便是我們解決了AI開發(fā)中的難題,并不代表就能讓AI走向?qū)嵱谩T谏鲜龅牟襟E之中,我們忽略了醫(yī)學(xué)領(lǐng)域數(shù)據(jù)的一個重要特征——安全性。由于醫(yī)學(xué)數(shù)據(jù)與生命信息息息相關(guān),只有在保證數(shù)據(jù)安全的前提下,我們才能談及數(shù)據(jù)的應(yīng)用。

這意味著,企業(yè)或醫(yī)生在訓(xùn)練AI時,不能把數(shù)據(jù)帶出醫(yī)院,而成熟的AI算法,通常需要克服地域差異,進行多中心的試驗。如果AI模型不具備魯棒性,就失去了應(yīng)用與臨床的價值。

雖然數(shù)據(jù)不能出院,但是模型可以,那么我們能否直接將模型融合起來呢?答案是可以的。聯(lián)邦學(xué)習(xí)便是多個參與單位用各自數(shù)據(jù)訓(xùn)練完成的模型進行聚合,以實現(xiàn)數(shù)據(jù)不出院的情況下多個模型的統(tǒng)一,最終實現(xiàn)AI模型的高魯棒性。

截屏2020-04-02 下午5.42.22.png

聯(lián)邦學(xué)習(xí)與中心訓(xùn)練結(jié)果對比

通過一個包含13個用戶組的融合實驗,NVIDIA得到了上圖結(jié)果。圖中的紅線是以數(shù)據(jù)中心模式進行訓(xùn)練得到的模型精度曲線變化情況,綠線是聯(lián)邦學(xué)習(xí)下,13個模型融合后的模型精度曲線變化情況,可以發(fā)現(xiàn)隨著訓(xùn)練迭代次數(shù)的增加,兩條曲線高度重合,這個實驗一定程度上證明了聯(lián)邦學(xué)習(xí)的可用性。

NVIDIA工程師在GTC2019講解聯(lián)邦學(xué)習(xí)

不過,新的問題也在不斷出現(xiàn)。如果各個模型差異很大,那么聯(lián)邦學(xué)習(xí)如何自行“去粗取精”呢?“增量學(xué)習(xí)”將是NVIDIA下一步研究的重點。

除了Clara Train SDK,NVIDIA還開發(fā)了Clara Deploy SDK,用于優(yōu)化PACS已有的工作流。同時,利用Clara Deploy SDK,醫(yī)生可以在臨床環(huán)境中靈活快速部署醫(yī)療影像AI模型。

基因組學(xué):數(shù)據(jù)分析與AI構(gòu)造

再談NVIDIA新近瞄準(zhǔn)的基因組學(xué)。2003年首次對人類基因組進行測序以來,整個基因組測序的成本就一直在下降,而且下降的速度遠(yuǎn)快于根據(jù)摩爾定律所預(yù)測的速度。從新生兒基因組測序到開展全國人口基因組計劃,該領(lǐng)域正在蓬勃發(fā)展,并且日趨個體化。

測序技術(shù)的進步引發(fā)了基因組數(shù)據(jù)的爆炸式增長。序列數(shù)據(jù)總量每七個月增加一倍。這一驚人的速度可能會使得到2025年基因組學(xué)產(chǎn)生的數(shù)據(jù)量比其他大數(shù)據(jù)源(例如天文學(xué)、Twitter和 YouTube)數(shù)據(jù)量總和的10倍還多。

各種新的測序系統(tǒng),比如全球最大的基因組學(xué)研究集團——華大集團的DNBSEQ-T7等正在推動這項技術(shù)的廣泛應(yīng)用。該系統(tǒng)每天可以生成高達(dá)60個基因組,產(chǎn)出高質(zhì)量數(shù)據(jù)1-6 Tb。

憑借華大集團的流動池技術(shù)的發(fā)展以及一對NVIDIA V100 Tensor Core GPU所提供的加速,DNBSEQ-T7的測序速度提高了50倍,令其成為迄今為止吞吐量最高的基因組測序儀。

但測序的加速工作遠(yuǎn)沒有結(jié)束,科學(xué)家在觀察更加微觀的世界時提出了新的需求。為了滿足這樣的需求,NVIDIA也在不斷探索。

為了通過加速和智能計算解決基因組測序和分析日益增長的規(guī)模和復(fù)雜性,NVIDIA創(chuàng)造了Clara Genomics。

通過Clara框架下的Clara Genomics Analysis SDK,研究人員可以加快基因數(shù)據(jù)的讀取、序列對比,以降低分析成本,提升數(shù)據(jù)質(zhì)量。

截屏2020-04-02 下午5.42.33.png

Clara Genomics

此外,NVIDIA還收購了Parabricks,這是一個CUDA加速的基因數(shù)據(jù)分析工具包,可用于發(fā)現(xiàn)變異,并能產(chǎn)生與行業(yè)標(biāo)準(zhǔn)GATK最佳實踐流程一致的結(jié)果。運用這個工具包,相關(guān)計算可提升30-50倍,并可利用深度學(xué)習(xí)進行基因變異檢測。

截屏2020-04-02 下午5.44.34.png

NVIDIA Parabricks GPU加速的GATK

通過與華大集團合作,Parabricks的軟件可以在一小時內(nèi)完成全基因組的分析。華大集團使用一臺內(nèi)置8個NVIDIA T4 Tensor Core GPU的服務(wù)器,證明了可以通過提高吞吐量將基因組測序成本降至2美元,這還不到現(xiàn)有系統(tǒng)成本的一半。

NVIDIA 為 COVID-19 研究人員免費提供 Parabricks,了解更多請點擊此處。

AI的未來需要所有人共同開創(chuàng)

隨著深度學(xué)習(xí)進入越來越多的領(lǐng)域之中,NVIDIA在為眾多開發(fā)者提供算力支持的同時,也為其搭好了強有力的“基底”,在這之上,開發(fā)者能夠?qū)⒏嗟木Ψ旁谥R的探索之上,而非受制于如何使用數(shù)據(jù)分析工具。

如今,Clara已經(jīng)擁有了眾多的合作伙伴,在中國,聯(lián)影醫(yī)療、安德醫(yī)智均采用了這一平臺進行合作開發(fā),在海外,賽默飛世爾、佳能Vital、約翰霍普金斯大學(xué)也與NVIDIA建立了深入的合作關(guān)系。


聲明: 本文系OFweek根據(jù)授權(quán)轉(zhuǎn)載自其它媒體或授權(quán)刊載,目的在于信息傳遞,并不代表本站贊同其觀點和對其真實性負(fù)責(zé),如有新聞稿件和圖片作品的內(nèi)容、版權(quán)以及其它問題的,請聯(lián)系我們。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

醫(yī)療科技 獵頭職位 更多
文章糾錯
x
*文字標(biāo)題:
*糾錯內(nèi)容:
聯(lián)系郵箱:
*驗 證 碼:

粵公網(wǎng)安備 44030502002758號