大數(shù)據(jù)在癌癥研究中的應(yīng)用現(xiàn)狀和未來挑戰(zhàn)!
前言
癌癥是一種非常復(fù)雜的疾病,其進(jìn)展涉及患者體內(nèi)的多種生物進(jìn)程。因此,癌癥研究產(chǎn)生了大量的分子和表型數(shù)據(jù),在高通量技術(shù)突破的推動(dòng)下,組學(xué)數(shù)據(jù)的快速積累產(chǎn)生了癌癥“大數(shù)據(jù)”的概念。其定義為具有兩個(gè)基本屬性的數(shù)據(jù)集:首先,它包含豐富的信息;其次,它的分析需要大量的計(jì)算資源,并可能為基本問題帶來新的見解。
大數(shù)據(jù)并非癌癥領(lǐng)域獨(dú)有,在許多科學(xué)學(xué)科中發(fā)揮著重要作用。然而,癌癥領(lǐng)域的數(shù)據(jù)集在幾個(gè)關(guān)鍵方面不同于其他領(lǐng)域。首先,癌癥數(shù)據(jù)集的大小通常明顯更小。其次,癌癥研究數(shù)據(jù)通常是異構(gòu)的,可能包含許多測(cè)量細(xì)胞系統(tǒng)和生物過程不同方面的維度。由于每種模式的數(shù)據(jù)量相對(duì)有限,而且它們之間存在高度的異質(zhì)性,因此需要開發(fā)創(chuàng)新的計(jì)算方法來整合不同維度和隊(duì)列的數(shù)據(jù)。
隨著數(shù)據(jù)的不斷積累和技術(shù)進(jìn)步,大數(shù)據(jù)、生物信息學(xué)和人工智能的結(jié)合將使我們對(duì)癌癥生物學(xué)的基本理解和臨床轉(zhuǎn)化發(fā)生顯著進(jìn)步。這需要科學(xué)家、臨床醫(yī)生、生物學(xué)家和決策者的共同努力。
通用數(shù)據(jù)類型
癌癥研究中有五種基本數(shù)據(jù)類型:分子組學(xué)數(shù)據(jù)、擾動(dòng)表型數(shù)據(jù)、分子相互作用數(shù)據(jù)、成像數(shù)據(jù)和文本數(shù)據(jù)。分子組學(xué)數(shù)據(jù)描述細(xì)胞系統(tǒng)和組織樣本中分子的豐度或狀態(tài)。這些數(shù)據(jù)是癌癥研究中從患者或臨床前樣本中產(chǎn)生的最豐富的類型,包括關(guān)于DNA突變(基因組學(xué))、染色質(zhì)或DNA狀態(tài)(表觀基因組學(xué))、蛋白質(zhì)豐度(蛋白質(zhì)組學(xué))、轉(zhuǎn)錄物豐度(轉(zhuǎn)錄組學(xué))和代謝物豐度的信息。
擾動(dòng)表型數(shù)據(jù)描述了細(xì)胞表型(如細(xì)胞增殖或標(biāo)記蛋白豐度)在基因水平抑制、擴(kuò)增或藥物治療后如何改變。常見的表型實(shí)驗(yàn)包括使用CRISPR敲除、干擾或激活的擾動(dòng)篩選;RNA干擾;開放閱讀框的過度表達(dá);或用藥物文庫處理。
分子相互作用數(shù)據(jù)描述了分子與其它不同分子相互作用的潛在功能。常見的分子相互作用數(shù)據(jù)類型包括蛋白質(zhì)-DNA相互作用、蛋白質(zhì)-RNA相互作用、蛋白質(zhì)-蛋白質(zhì)相互作用和3D染色體相互作用。與擾動(dòng)表型數(shù)據(jù)類似,分子相互作用數(shù)據(jù)集通常使用細(xì)胞系生成,因?yàn)樗鼈兊纳尚枰罅康牟牧,這些材料通常超過從臨床樣品中獲得的材料。
此外,臨床數(shù)據(jù)如健康記錄、組織病理學(xué)圖像和放射學(xué)圖像也具有相當(dāng)大的價(jià)值。
數(shù)據(jù)存儲(chǔ)和分析平臺(tái)
癌癥研究的關(guān)鍵數(shù)據(jù)資源,可以分為三類。第一類包括來自系統(tǒng)生成數(shù)據(jù)項(xiàng)目的資源,例如TCGA生成了10000多個(gè)癌癥基因組的轉(zhuǎn)錄組學(xué)、蛋白質(zhì)組學(xué)、基因組學(xué)和表觀基因組學(xué)數(shù)據(jù),并匹配了33種癌癥類型的正常樣本。第二類描述了展示來自上述項(xiàng)目的已處理數(shù)據(jù)的存儲(chǔ)庫,如基因組數(shù)據(jù)共享區(qū),它托管TCGA數(shù)據(jù)供下載。第三類包括Web應(yīng)用程序,這些應(yīng)用程序系統(tǒng)地集成了不同項(xiàng)目的數(shù)據(jù),并提供交互式分析模塊。例如,TIDE框架系統(tǒng)地收集了來自免疫腫瘤學(xué)研究的公共數(shù)據(jù),并提供了互動(dòng)模塊,以研究腫瘤免疫逃逸和免疫治療反應(yīng)的途徑和調(diào)節(jié)機(jī)制。
大數(shù)據(jù)在癌癥基礎(chǔ)研究中的應(yīng)用
目前,癌癥研究的數(shù)據(jù)規(guī)模仍遠(yuǎn)遠(yuǎn)落后于計(jì)算機(jī)的其他領(lǐng)域?珀(duì)列聚合和跨模態(tài)集成可顯著增強(qiáng)大數(shù)據(jù)分析的穩(wěn)健性和深度。
跨隊(duì)列數(shù)據(jù)聚合
整合來自多個(gè)中心或研究的數(shù)據(jù)集可以獲得更穩(wěn)健的結(jié)果和潛在的新發(fā)現(xiàn),特別是在個(gè)別數(shù)據(jù)集有噪聲、不完整或帶有某些人為因素的情況下?珀(duì)列數(shù)據(jù)聚合的一個(gè)里程碑是發(fā)現(xiàn)TMPRSS2–ERG融合和TMPRSS2-ETV1融合是前列腺癌的致癌驅(qū)動(dòng)因素。通過對(duì)代表10486個(gè)微陣列實(shí)驗(yàn)的132個(gè)基因表達(dá)數(shù)據(jù)集的分析,首先確定ERG和ETV1在六個(gè)獨(dú)立的前列腺癌隊(duì)列內(nèi)是高表達(dá)基因,進(jìn)一步的研究確定它們與TMPRSS2的融合是ERG和ET V1過度表達(dá)的原因。另一個(gè)例子是對(duì)許多臨床數(shù)據(jù)集的腫瘤免疫逃逸的綜合研究,該研究表明SERPINB9表達(dá)與腫瘤內(nèi)T細(xì)胞功能障礙和對(duì)免疫檢查點(diǎn)阻斷的抵抗相關(guān)。進(jìn)一步研究發(fā)現(xiàn),SERPINB9激活是癌細(xì)胞和免疫抑制細(xì)胞對(duì)免疫檢查點(diǎn)阻斷產(chǎn)生抵抗的機(jī)制。
跨模態(tài)數(shù)據(jù)集成
不同數(shù)據(jù)類型的跨模態(tài)集成是一種有希望和有成效的方法,可以最大化從數(shù)據(jù)中獲得的信息,因?yàn)槊總(gè)數(shù)據(jù)類型中嵌入的信息通常是協(xié)同和互補(bǔ)的?缒B(tài)數(shù)據(jù)集成的例子包括TCGA等項(xiàng)目,該項(xiàng)目提供基因組學(xué)、轉(zhuǎn)錄組學(xué)、同一組腫瘤的表觀基因組學(xué)和蛋白質(zhì)組學(xué)數(shù)據(jù)?缒B(tài)整合帶來了許多關(guān)于癌癥進(jìn)展相關(guān)因素的新見解。例如,EGFR信號(hào)通路中蛋白質(zhì)的磷酸化狀態(tài)與頭頸癌中編碼EGFR配體的基因的高表達(dá)相關(guān),而與受體的表達(dá)和磷酸化水平無關(guān),這表明患者應(yīng)根據(jù)配體豐度而不是受體狀態(tài)分層接受抗EGFR治療。
利用現(xiàn)有數(shù)據(jù)的知識(shí)轉(zhuǎn)化
此外,可以利用現(xiàn)有數(shù)據(jù)進(jìn)行新的發(fā)現(xiàn)。例如,細(xì)胞分?jǐn)?shù)去卷積技術(shù)可以推斷出腫瘤轉(zhuǎn)錄組學(xué)中單個(gè)細(xì)胞類型的組成。這些方法通常從許多現(xiàn)有數(shù)據(jù)集中收集不同細(xì)胞類型的基因表達(dá)譜,并進(jìn)行回歸或特征富集分析,以在體腫瘤表達(dá)譜中分析細(xì)胞片段或譜系的特異性表達(dá)。
數(shù)據(jù)轉(zhuǎn)化還可以幫助開發(fā)新的實(shí)驗(yàn)測(cè)試。例如,現(xiàn)有腫瘤全外顯子組測(cè)序數(shù)據(jù)用于優(yōu)化循環(huán)腫瘤DNA測(cè)定,通過最大化每個(gè)患者檢測(cè)到的改變數(shù)量,同時(shí)最小化基因和區(qū)域選擇大小。通過檢測(cè)從多個(gè)腫瘤區(qū)域或不同腫瘤部位釋放的DNA的變化,由此產(chǎn)生的循環(huán)腫瘤DNA測(cè)定可提供治療抗性和癌癥復(fù)發(fā)和轉(zhuǎn)移的綜合視圖。
大數(shù)據(jù)在臨床轉(zhuǎn)化研究中的應(yīng)用
許多臨床診斷和決定,如組織病理學(xué)解釋,本質(zhì)上是主觀的,依賴于醫(yī)生的經(jīng)驗(yàn)或標(biāo)準(zhǔn)化診斷術(shù)語和分類法的可用性。這些主觀因素可能會(huì)導(dǎo)致解釋錯(cuò)誤和診斷差異,大數(shù)據(jù)方法可以提供系統(tǒng)和客觀的補(bǔ)充選項(xiàng),以指導(dǎo)診斷和臨床決策。
從數(shù)據(jù)隊(duì)列中分析診斷生物標(biāo)志物
從大數(shù)據(jù)中分析診斷生物標(biāo)志物,一些早期例子包括雌激素受體(ER)或孕激素受體(PR)陽性乳腺癌患者的預(yù)后分析,如Oncotype DX、MammaPrint、EndoPredict和Prosigna。這些測(cè)試特別有用,因?yàn)閱为?dú)的輔助內(nèi)分泌治療可以為ER/PR陽性、HER2陰性的早期乳腺癌患者帶來足夠的臨床益處。分層為低風(fēng)險(xiǎn)的患者可以避免不必要的額外化療。其他癌癥類型的預(yù)測(cè)因子包括結(jié)腸癌和前列腺癌的Oncotype DX和早期肺癌的Pervenio。
分子數(shù)據(jù)指導(dǎo)的臨床試驗(yàn)
全基因組和多模式數(shù)據(jù)已開始在前瞻性多組臨床試驗(yàn)中起到匹配患者的作用,特別是那些研究精準(zhǔn)治療的試驗(yàn)。例如,WINTHER試驗(yàn)根據(jù)來自實(shí)體腫瘤活檢的DNA測(cè)序或RNA表達(dá)數(shù)據(jù),前瞻性匹配晚期癌癥患者接受治療。WINTHER研究得出結(jié)論,這兩種數(shù)據(jù)類型對(duì)于改善治療和患者預(yù)后都很有價(jià)值。
其他類似的試驗(yàn)也已經(jīng)證明,基于全基因組基因組學(xué)或轉(zhuǎn)錄組學(xué)數(shù)據(jù)匹配患者使用靶向治療的效用。在這些研究中,接受組學(xué)數(shù)據(jù)匹配治療的入選患者比例從19%到37%,在這些匹配的患者中,約三分之一的患者表現(xiàn)出顯著的臨床益處。
隨著這些初步的成功,新興的臨床研究旨在收集大量樣本序列之外的額外數(shù)據(jù),如各種藥物治療后的腫瘤細(xì)胞死亡反應(yīng)或患者樣本中收集的scRNA序列數(shù)據(jù),以研究治療反應(yīng)和耐藥性機(jī)制?梢灶A(yù)期,新的數(shù)據(jù)模式和分析將為臨床試驗(yàn)設(shè)計(jì)提供新的方法。
用于癌癥診斷的人工智能
目前,很多臨床診斷中的數(shù)據(jù)類型,如成像數(shù)據(jù)或文本報(bào)告,可能無法與樣本之間直接對(duì)接;谏疃壬窠(jīng)網(wǎng)絡(luò)的人工智能方法是一種新興的方法,可以將這些數(shù)據(jù)類型集成到臨床應(yīng)用中。
人工智能在分析成像數(shù)據(jù)方面最常用的應(yīng)用包括臨床結(jié)果預(yù)測(cè)和腫瘤檢測(cè),以及根據(jù)HE染色的組織進(jìn)行分級(jí)。2021 9月,F(xiàn)DA批準(zhǔn)使用人工智能軟件Paige Prostate來協(xié)助病理學(xué)家從前列腺穿刺的活檢樣本中檢測(cè)癌癥區(qū)域。這一批準(zhǔn)反映了組織病理學(xué)圖像上人工智能應(yīng)用的加速勢(shì)頭。
除了組織病理學(xué),放射學(xué)是人工智能成像分析的另一個(gè)應(yīng)用。使用3D計(jì)算機(jī)斷層掃描的深度卷積神經(jīng)網(wǎng)絡(luò)已顯示出預(yù)測(cè)肺癌風(fēng)險(xiǎn)的準(zhǔn)確性與經(jīng)驗(yàn)豐富的放射科醫(yī)生的預(yù)測(cè)相當(dāng),卷積神經(jīng)網(wǎng)絡(luò)可以使用計(jì)算機(jī)斷層掃描數(shù)據(jù)對(duì)肺癌患者的生存期進(jìn)行分層,并強(qiáng)調(diào)腫瘤周圍組織在風(fēng)險(xiǎn)分層中的重要性。
人工智能也開始在分析電子健康記錄方面發(fā)揮重要作用。除圖像和健康記錄外,在其他數(shù)據(jù)類型上訓(xùn)練的人工智能也具有廣泛的臨床應(yīng)用,如通過液體活組織檢查捕獲無細(xì)胞DNA或T細(xì)胞受體序列進(jìn)行早期癌癥檢測(cè),或基于基因組學(xué)的癌癥風(fēng)險(xiǎn)預(yù)測(cè)。
大數(shù)據(jù)分析輔助新療法開發(fā)
開發(fā)新藥成本高、周期長(zhǎng)且失敗率高。新療法的開發(fā)是大數(shù)據(jù)應(yīng)用的一個(gè)有前景的方向。一些大數(shù)據(jù)驅(qū)動(dòng)的臨床前研究已經(jīng)吸引了制藥行業(yè)的注意,可能很快對(duì)臨床做出重大貢獻(xiàn)。
大數(shù)據(jù)已被用于幫助現(xiàn)有藥物的再利用,以治療新疾病和設(shè)計(jì)協(xié)同組合。此外,最近的研究結(jié)合藥理學(xué)數(shù)據(jù)和人工智能已用于設(shè)計(jì)新藥;诂F(xiàn)有DDR1抑制劑和化合物文庫的信息,使用深度生成模型設(shè)計(jì)抑制受體酪氨酸激酶DDR1的新分子,主要候選物在小鼠中顯示出有利的藥代動(dòng)力學(xué)特征。
AI還可用于目標(biāo)蛋白質(zhì)結(jié)構(gòu)上生物活性配體的虛擬篩選。卷積神經(jīng)網(wǎng)絡(luò)可以全面整合來自先前虛擬篩選研究的訓(xùn)練數(shù)據(jù),以優(yōu)于基于最小化經(jīng)驗(yàn)分?jǐn)?shù)的對(duì)接方法。系統(tǒng)評(píng)估顯示,使用由分子描述和藥物生物活性組成的大型多樣數(shù)據(jù)集訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)比其他方法更好地預(yù)測(cè)了測(cè)試分子的活性。
挑戰(zhàn)與未來展望
盡管基于大數(shù)據(jù)的進(jìn)步令人鼓舞,但在癌癥研究和臨床中的大數(shù)據(jù)應(yīng)用方面仍存在相當(dāng)大的挑戰(zhàn)。組學(xué)數(shù)據(jù)通常存在隊(duì)列間的測(cè)量不一致、顯著的批次效應(yīng)和對(duì)特定實(shí)驗(yàn)平臺(tái)的依賴性。這種缺乏一致性是臨床轉(zhuǎn)化的主要障礙。關(guān)于腫瘤組學(xué)數(shù)據(jù)的測(cè)量和標(biāo)準(zhǔn)化的共識(shí)對(duì)于每種數(shù)據(jù)類型都至關(guān)重要。除了這些技術(shù)挑戰(zhàn)之外,還存在結(jié)構(gòu)性和社會(huì)挑戰(zhàn),可能阻礙整個(gè)癌癥數(shù)據(jù)科學(xué)領(lǐng)域的進(jìn)步。
不理想的數(shù)據(jù)可用性
癌癥數(shù)據(jù)科學(xué)的一個(gè)關(guān)鍵挑戰(zhàn)是數(shù)據(jù)和代碼的可用性不足。最近的一項(xiàng)研究發(fā)現(xiàn),生物醫(yī)學(xué)領(lǐng)域基于機(jī)器學(xué)習(xí)的研究在公共數(shù)據(jù)和源代碼可用性方面與其他領(lǐng)域的研究相比較差。有時(shí),即使在安全和隱私問題得到解決的情況下,也無法提供或完成與公布的癌癥基因組學(xué)數(shù)據(jù)相關(guān)的臨床信息。這個(gè)瓶頸的一個(gè)可能原因與數(shù)據(jù)發(fā)布策略和數(shù)據(jù)管理成本有關(guān)。
數(shù)據(jù)規(guī)模差距
可用于癌癥治療的數(shù)據(jù)集大幅小于其他領(lǐng)域的數(shù)據(jù)集。造成這種差距的一個(gè)原因是,醫(yī)學(xué)數(shù)據(jù)的生成依賴于受過專業(yè)培訓(xùn)的科學(xué)家。為了縮小數(shù)據(jù)規(guī)模差距,將需要更多的投資來自動(dòng)生成某些類型的注釋醫(yī)療數(shù)據(jù)和患者組學(xué)數(shù)據(jù)。罕見癌癥尤其缺乏臨床前模型、臨床樣本和專用資金。此外,生物醫(yī)學(xué)數(shù)據(jù)的可用性通常受到人群遺傳背景的限制。例如,東亞、歐洲和美國(guó)人群中可作用突變的頻率可能不同。
數(shù)據(jù)規(guī)模差距的另一個(gè)原因是癌癥臨床和生物學(xué)研究缺乏數(shù)據(jù)生成標(biāo)準(zhǔn)。例如,大多數(shù)臨床試驗(yàn)尚未收集患者的組學(xué)數(shù)據(jù)。隨著測(cè)序成本的下降,臨床試驗(yàn)中組學(xué)數(shù)據(jù)的收集應(yīng)顯著擴(kuò)大,并可能成為強(qiáng)制性標(biāo)準(zhǔn)要求。
小結(jié)
數(shù)據(jù)科學(xué)和人工智能正在通過各種各樣的應(yīng)用改變我們的世界。目前,我們已經(jīng)有了可用的腫瘤數(shù)據(jù),通過跨模式整合、跨隊(duì)列聚合和數(shù)據(jù)轉(zhuǎn)化,促進(jìn)了癌癥的生物醫(yī)學(xué)突破,并且在生成和分析此類數(shù)據(jù)方面取得了非凡的進(jìn)展。然而,大數(shù)據(jù)在該領(lǐng)域的狀態(tài)是相當(dāng)復(fù)雜的,我們應(yīng)該承認(rèn)癌癥的“大數(shù)據(jù)”還沒有那么大。全球癌癥研究未來在擴(kuò)大癌癥數(shù)據(jù)集方面的投入將至關(guān)重要,這將有助于更好的推動(dòng)大數(shù)據(jù)在基礎(chǔ)研究、癌癥診斷和新療法開發(fā)的應(yīng)用。
參考文獻(xiàn):
1.Big data in basic and translational cancerresearch. Nat Rev Cancer.2022 Sep 5 : 1–15.
原文標(biāo)題 : 大數(shù)據(jù)在癌癥研究中的應(yīng)用現(xiàn)狀和未來挑戰(zhàn)
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
-
金百澤科技亮相中國(guó)國(guó)際醫(yī)療器械博覽會(huì) | 盡顯醫(yī)療領(lǐng)域硬實(shí)力
-
進(jìn)階的新冠疫苗 又一個(gè)中國(guó)造
-
“AI醫(yī)療第一股”鷹瞳科技上市首日即破發(fā)
-
圓心科技登陸港股,“賣藥的生意”還好不好做?
-
十圖解讀2021年中國(guó)康復(fù)醫(yī)療行業(yè)現(xiàn)狀
-
醫(yī)藥流通數(shù)字化運(yùn)營(yíng)實(shí)現(xiàn)精細(xì)化飼養(yǎng)
-
科學(xué)家發(fā)現(xiàn)人體新器官:將有助于癌癥治療
-
李飛飛入選美國(guó)國(guó)家醫(yī)學(xué)院
最新活動(dòng)更多
-
11月19日立即報(bào)名>> 【線下論壇】華邦電子與恩智浦聯(lián)合技術(shù)論壇
-
11月29日立即預(yù)約>> 【上海線下】設(shè)計(jì),易如反掌—Creo 11發(fā)布巡展
-
即日-12.26火熱報(bào)名中>> OFweek2024中國(guó)智造CIO在線峰會(huì)
-
精彩回顧立即查看>> 2024(第五屆)全球數(shù)字經(jīng)濟(jì)產(chǎn)業(yè)大會(huì)暨展覽會(huì)
-
精彩回顧立即查看>> 全數(shù)會(huì)2024中國(guó)人形機(jī)器人技術(shù)創(chuàng)新發(fā)展大會(huì)
-
精彩回顧立即查看>> OFweek 2024中國(guó)激光產(chǎn)業(yè)高質(zhì)量發(fā)展峰會(huì)
-
10 BD新浪潮
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市