侵權(quán)投訴
訂閱
糾錯(cuò)
加入自媒體

極道:探尋生命科學(xué)領(lǐng)域數(shù)據(jù)“多樣化”的解決之道

2021-02-23 10:47
來源: 粵訊

近年來生命科學(xué)領(lǐng)域的數(shù)據(jù)量呈爆炸式增長的趨勢,包括基因測序、臨床檢測、冷凍電鏡、腦科學(xué)等。數(shù)據(jù)的爆發(fā)增長導(dǎo)致了數(shù)據(jù)和數(shù)據(jù)分析方式呈現(xiàn)出多樣化的特征,而這些“多樣化”特征是多個(gè)層次的,如何解讀生命科學(xué)領(lǐng)域數(shù)據(jù)多樣化帶來的一系列挑戰(zhàn),成為了業(yè)內(nèi)及數(shù)據(jù)系統(tǒng)公司需要解決的一大難題。

數(shù)據(jù)類型的“多樣化”

第一個(gè)層次的“多樣化”是數(shù)據(jù)類型的多樣化。

這包括動(dòng)植物基因組學(xué)數(shù)據(jù)、醫(yī)學(xué)臨床數(shù)據(jù)、結(jié)構(gòu)生物學(xué)研究中冷凍電鏡產(chǎn)生的蛋白和大分子結(jié)構(gòu)數(shù)據(jù),甚至還包括由3D基因組學(xué)發(fā)展而來的3維基因空間結(jié)構(gòu)數(shù)據(jù)。多樣化的數(shù)據(jù)類型,讓能夠觀察到和分析出來的數(shù)據(jù)特征越來越多樣化。

除了門、綱、目、科、屬、種、變異、突變、臨床表征等,越來越多維度的數(shù)據(jù)特征進(jìn)入了生命科學(xué)研究工作者的視野中。如何從多樣化的數(shù)據(jù)特征中發(fā)現(xiàn)數(shù)據(jù)、利用數(shù)據(jù)特征生成多維度數(shù)據(jù)集合,對數(shù)據(jù)的管理提出了相當(dāng)高的要求。

非結(jié)構(gòu)化數(shù)據(jù)的“非結(jié)構(gòu)”特性本身造成了管理上的困難,同時(shí)海量數(shù)據(jù)的特征越來越豐富,數(shù)十億級別的數(shù)據(jù)加上每個(gè)數(shù)據(jù)都可能有多個(gè)不同強(qiáng)關(guān)聯(lián)的特征,而利用關(guān)系型數(shù)據(jù)庫加數(shù)據(jù)路徑實(shí)現(xiàn)的傳統(tǒng)LIMS系統(tǒng)來進(jìn)行數(shù)據(jù)管理的方式,其擴(kuò)展性差、海量數(shù)據(jù)強(qiáng)關(guān)聯(lián)搜索效率極低并且難以分析的弱點(diǎn)也逐漸被暴露出來。

針對這一現(xiàn)象,極道的新型數(shù)據(jù)管理系統(tǒng)能夠利用分布式圖技術(shù)對數(shù)據(jù)進(jìn)行大規(guī)模強(qiáng)關(guān)聯(lián)實(shí)時(shí)數(shù)據(jù)特征管理,解決生命科學(xué)領(lǐng)域用戶的多樣化數(shù)據(jù)特征的痛點(diǎn),有序管理、快速搜索、生成多維度數(shù)據(jù)視圖。

數(shù)據(jù)計(jì)算模式的“多樣化”

第二個(gè)層次的“多樣化”是數(shù)據(jù)計(jì)算模式的多樣化。

傳統(tǒng)的生命科學(xué)領(lǐng)域無論是基因測序還是冷凍電鏡數(shù)據(jù),通常采用的是批量計(jì)算或者高性能計(jì)算的工具和算法。但是隨著計(jì)算技術(shù)的發(fā)展,計(jì)算模式的不斷進(jìn)步,更多新型方法實(shí)現(xiàn)的算法和工具加入到生命科學(xué)相關(guān)領(lǐng)域的研究和生產(chǎn)中。比如測序領(lǐng)域的GATK4spark和一些其他的基于大數(shù)據(jù)MapReduce技術(shù)實(shí)現(xiàn)的算法工具誕生,導(dǎo)致生命科學(xué)用戶傳統(tǒng)的單一HPC集群已不能滿足計(jì)算的需要。而近兩年AI技術(shù)的興起,Google的DeepVariant、Nvidia的Clara等基于人工智能的生物醫(yī)學(xué)平臺(tái)帶來了更多新型分析生物數(shù)據(jù)的工具和算法,各種異構(gòu)的計(jì)算模式也給生物數(shù)據(jù)處理和分析帶來了很大的挑戰(zhàn)。

如何改造傳統(tǒng)的計(jì)算基礎(chǔ)架構(gòu)?構(gòu)建和運(yùn)維獨(dú)立割裂的HPC集群、大數(shù)據(jù)集群、AI集群并不是最有效的解決方法。多樣化的計(jì)算模式帶來了資源上的壁壘,資源利用率和運(yùn)維的復(fù)雜度也成為了生命科學(xué)研究工作者需要解決的難題,而更為重要的是,新技術(shù)誕生并不能一次性的顛覆所有以前的算法實(shí)現(xiàn)。

因此可以預(yù)見,未來,多樣化模式實(shí)現(xiàn)的算法將會(huì)長期共存。一個(gè)復(fù)雜的生物數(shù)據(jù)分析流程很可能會(huì)同時(shí)涉及到批量計(jì)算、高性能計(jì)算、MapReduce和深度學(xué)習(xí)相關(guān)的各種算法。

在這種情況下極道Achelous計(jì)算系統(tǒng)誕生了。Achelous通過共享硬件的一套集群,動(dòng)態(tài)地構(gòu)建多模式計(jì)算框架、利用智能執(zhí)行引擎協(xié)助生命科學(xué)領(lǐng)域用戶構(gòu)建高效率、混合算法的數(shù)據(jù)流程,有效的解決計(jì)算的多樣化需求。

計(jì)算硬件需求異構(gòu)化

第三個(gè)層次的“多樣化”是計(jì)算硬件需求的異構(gòu)化。

隨著生命科學(xué)領(lǐng)域計(jì)算模式的樣化,計(jì)算硬件也在迅速發(fā)展。除CPU以外,GPU、FPGA等稀缺計(jì)算資源也加入了進(jìn)來,以滿足復(fù)雜和高速的數(shù)據(jù)分析處理。

解決異構(gòu)計(jì)算資源的共享和調(diào)度問題,需要足夠智能的計(jì)算平臺(tái)。例如GPU如何根據(jù)拓?fù)湔{(diào)度化零為整、如何根據(jù)顯存調(diào)度化整為零?極道的計(jì)算系統(tǒng)Achelous能夠面對異構(gòu)硬件平臺(tái),根據(jù)不同稀缺計(jì)算資源的特征設(shè)計(jì)高級調(diào)度策略,盡可能把稀缺計(jì)算資源的利用率發(fā)揮到極致。

多種算法模型共存

第四個(gè)層次的“多樣化”是多種算法模型帶來的的多樣化。

在生物信息分析計(jì)算過程中,一套系統(tǒng)會(huì)同時(shí)存在多種算法模型的運(yùn)行實(shí)例,而每個(gè)算法的實(shí)現(xiàn)都對數(shù)據(jù)存取有不一樣的要求,有的要求吞吐、有的要求Ops、有的要求元數(shù)據(jù)訪問的延遲,多樣化的IO模式給數(shù)據(jù)存取效率帶來了很大的挑戰(zhàn)。面對這種多樣化的IO存儲(chǔ)模式,存儲(chǔ)需要進(jìn)行相應(yīng)的優(yōu)化和動(dòng)態(tài)調(diào)整,才能滿足數(shù)據(jù)分析的需要。

比如計(jì)算集群登陸節(jié)點(diǎn)交互操作多,要求數(shù)據(jù)和元數(shù)據(jù)的訪問延遲,而計(jì)算節(jié)點(diǎn)很可能一段時(shí)間內(nèi)是吞吐密集,另一個(gè)算法同時(shí)需要求高的Ops。解決這種多IO模式共存情況下數(shù)據(jù)存取的效能,需要計(jì)算系統(tǒng)和存儲(chǔ)系統(tǒng)的協(xié)同,極道獨(dú)創(chuàng)的“應(yīng)用感知”理論,其目的是要存儲(chǔ)系統(tǒng)通過高級策略根據(jù)應(yīng)用算法多樣化IO模式進(jìn)行實(shí)時(shí)調(diào)整,盡可能把存儲(chǔ)的數(shù)據(jù)存取效能在多樣化計(jì)算過程中發(fā)揮到極致。

事實(shí)上,生命科學(xué)數(shù)據(jù)所面對的四個(gè)層次的“多樣化”,在很多的行業(yè)中都有共性表現(xiàn),面對“多樣化”挑戰(zhàn),需要各種各樣的“門道”。極道有“道”,能夠用產(chǎn)品和優(yōu)勢技術(shù)把所有的“道兒”都發(fā)揮到極致。

這就是極道作為一個(gè)數(shù)據(jù)系統(tǒng)公司與傳統(tǒng)的存儲(chǔ)公司、或者IT系統(tǒng)公司的不同之處。極道不僅站在系統(tǒng)公司的角度設(shè)計(jì)和研發(fā)產(chǎn)品,更重要的是還能夠深度理解行業(yè)應(yīng)用、根據(jù)行業(yè)用戶的真實(shí)數(shù)據(jù)需要設(shè)計(jì)產(chǎn)品,來迎接行業(yè)所面臨的多樣化數(shù)據(jù)挑戰(zhàn)。

目前,極道的數(shù)據(jù)系統(tǒng)產(chǎn)品在國內(nèi)外頂級的基因公司、臨床檢測公司、國家級科研機(jī)構(gòu)、藥物研發(fā)等領(lǐng)域廣泛應(yīng)用,并收獲眾多客戶好評。未來,極道仍將不斷提供創(chuàng)新的技術(shù)與產(chǎn)品,為生物基因技術(shù)的快速發(fā)展發(fā)揮重要作用。

關(guān)于極道

極道,專注于數(shù)據(jù)“存”、“管”、“算”的創(chuàng)新數(shù)據(jù)系統(tǒng)公司,由國內(nèi)頂尖的存儲(chǔ)和數(shù)據(jù)分析專家團(tuán)隊(duì)組建。以分布式并行文件存儲(chǔ)、強(qiáng)關(guān)聯(lián)大規(guī)模實(shí)時(shí)數(shù)據(jù)管理系統(tǒng),以及集群的調(diào)度系統(tǒng)和執(zhí)行引擎為核心產(chǎn)品,滿足企業(yè)對數(shù)據(jù)處理、分析和建模的多樣化需求,幫助客戶迅速提升IT資源效率,將海量非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為真正的數(shù)據(jù)資產(chǎn)。

聲明: 本文系OFweek根據(jù)授權(quán)轉(zhuǎn)載自其它媒體或授權(quán)刊載,目的在于信息傳遞,并不代表本站贊同其觀點(diǎn)和對其真實(shí)性負(fù)責(zé),如有新聞稿件和圖片作品的內(nèi)容、版權(quán)以及其它問題的,請聯(lián)系我們。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個(gè)字

您提交的評論過于頻繁,請輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評論

暫無評論

醫(yī)療科技 獵頭職位 更多
文章糾錯(cuò)
x
*文字標(biāo)題:
*糾錯(cuò)內(nèi)容:
聯(lián)系郵箱:
*驗(yàn) 證 碼:

粵公網(wǎng)安備 44030502002758號