極道:探尋生命科學(xué)領(lǐng)域數(shù)據(jù)“多樣化”的解決之道
近年來生命科學(xué)領(lǐng)域的數(shù)據(jù)量呈爆炸式增長的趨勢,包括基因測序、臨床檢測、冷凍電鏡、腦科學(xué)等。數(shù)據(jù)的爆發(fā)增長導(dǎo)致了數(shù)據(jù)和數(shù)據(jù)分析方式呈現(xiàn)出多樣化的特征,而這些“多樣化”特征是多個(gè)層次的,如何解讀生命科學(xué)領(lǐng)域數(shù)據(jù)多樣化帶來的一系列挑戰(zhàn),成為了業(yè)內(nèi)及數(shù)據(jù)系統(tǒng)公司需要解決的一大難題。
數(shù)據(jù)類型的“多樣化”
第一個(gè)層次的“多樣化”是數(shù)據(jù)類型的多樣化。
這包括動(dòng)植物基因組學(xué)數(shù)據(jù)、醫(yī)學(xué)臨床數(shù)據(jù)、結(jié)構(gòu)生物學(xué)研究中冷凍電鏡產(chǎn)生的蛋白和大分子結(jié)構(gòu)數(shù)據(jù),甚至還包括由3D基因組學(xué)發(fā)展而來的3維基因空間結(jié)構(gòu)數(shù)據(jù)。多樣化的數(shù)據(jù)類型,讓能夠觀察到和分析出來的數(shù)據(jù)特征越來越多樣化。
除了門、綱、目、科、屬、種、變異、突變、臨床表征等,越來越多維度的數(shù)據(jù)特征進(jìn)入了生命科學(xué)研究工作者的視野中。如何從多樣化的數(shù)據(jù)特征中發(fā)現(xiàn)數(shù)據(jù)、利用數(shù)據(jù)特征生成多維度數(shù)據(jù)集合,對數(shù)據(jù)的管理提出了相當(dāng)高的要求。
非結(jié)構(gòu)化數(shù)據(jù)的“非結(jié)構(gòu)”特性本身造成了管理上的困難,同時(shí)海量數(shù)據(jù)的特征越來越豐富,數(shù)十億級別的數(shù)據(jù)加上每個(gè)數(shù)據(jù)都可能有多個(gè)不同強(qiáng)關(guān)聯(lián)的特征,而利用關(guān)系型數(shù)據(jù)庫加數(shù)據(jù)路徑實(shí)現(xiàn)的傳統(tǒng)LIMS系統(tǒng)來進(jìn)行數(shù)據(jù)管理的方式,其擴(kuò)展性差、海量數(shù)據(jù)強(qiáng)關(guān)聯(lián)搜索效率極低并且難以分析的弱點(diǎn)也逐漸被暴露出來。
針對這一現(xiàn)象,極道的新型數(shù)據(jù)管理系統(tǒng)能夠利用分布式圖技術(shù)對數(shù)據(jù)進(jìn)行大規(guī)模強(qiáng)關(guān)聯(lián)實(shí)時(shí)數(shù)據(jù)特征管理,解決生命科學(xué)領(lǐng)域用戶的多樣化數(shù)據(jù)特征的痛點(diǎn),有序管理、快速搜索、生成多維度數(shù)據(jù)視圖。
數(shù)據(jù)計(jì)算模式的“多樣化”
第二個(gè)層次的“多樣化”是數(shù)據(jù)計(jì)算模式的多樣化。
傳統(tǒng)的生命科學(xué)領(lǐng)域無論是基因測序還是冷凍電鏡數(shù)據(jù),通常采用的是批量計(jì)算或者高性能計(jì)算的工具和算法。但是隨著計(jì)算技術(shù)的發(fā)展,計(jì)算模式的不斷進(jìn)步,更多新型方法實(shí)現(xiàn)的算法和工具加入到生命科學(xué)相關(guān)領(lǐng)域的研究和生產(chǎn)中。比如測序領(lǐng)域的GATK4spark和一些其他的基于大數(shù)據(jù)MapReduce技術(shù)實(shí)現(xiàn)的算法工具誕生,導(dǎo)致生命科學(xué)用戶傳統(tǒng)的單一HPC集群已不能滿足計(jì)算的需要。而近兩年AI技術(shù)的興起,Google的DeepVariant、Nvidia的Clara等基于人工智能的生物醫(yī)學(xué)平臺(tái)帶來了更多新型分析生物數(shù)據(jù)的工具和算法,各種異構(gòu)的計(jì)算模式也給生物數(shù)據(jù)處理和分析帶來了很大的挑戰(zhàn)。
如何改造傳統(tǒng)的計(jì)算基礎(chǔ)架構(gòu)?構(gòu)建和運(yùn)維獨(dú)立割裂的HPC集群、大數(shù)據(jù)集群、AI集群并不是最有效的解決方法。多樣化的計(jì)算模式帶來了資源上的壁壘,資源利用率和運(yùn)維的復(fù)雜度也成為了生命科學(xué)研究工作者需要解決的難題,而更為重要的是,新技術(shù)誕生并不能一次性的顛覆所有以前的算法實(shí)現(xiàn)。
因此可以預(yù)見,未來,多樣化模式實(shí)現(xiàn)的算法將會(huì)長期共存。一個(gè)復(fù)雜的生物數(shù)據(jù)分析流程很可能會(huì)同時(shí)涉及到批量計(jì)算、高性能計(jì)算、MapReduce和深度學(xué)習(xí)相關(guān)的各種算法。
在這種情況下極道Achelous計(jì)算系統(tǒng)誕生了。Achelous通過共享硬件的一套集群,動(dòng)態(tài)地構(gòu)建多模式計(jì)算框架、利用智能執(zhí)行引擎協(xié)助生命科學(xué)領(lǐng)域用戶構(gòu)建高效率、混合算法的數(shù)據(jù)流程,有效的解決計(jì)算的多樣化需求。
計(jì)算硬件需求異構(gòu)化
第三個(gè)層次的“多樣化”是計(jì)算硬件需求的異構(gòu)化。
隨著生命科學(xué)領(lǐng)域計(jì)算模式的樣化,計(jì)算硬件也在迅速發(fā)展。除CPU以外,GPU、FPGA等稀缺計(jì)算資源也加入了進(jìn)來,以滿足復(fù)雜和高速的數(shù)據(jù)分析處理。
解決異構(gòu)計(jì)算資源的共享和調(diào)度問題,需要足夠智能的計(jì)算平臺(tái)。例如GPU如何根據(jù)拓?fù)湔{(diào)度化零為整、如何根據(jù)顯存調(diào)度化整為零?極道的計(jì)算系統(tǒng)Achelous能夠面對異構(gòu)硬件平臺(tái),根據(jù)不同稀缺計(jì)算資源的特征設(shè)計(jì)高級調(diào)度策略,盡可能把稀缺計(jì)算資源的利用率發(fā)揮到極致。
多種算法模型共存
第四個(gè)層次的“多樣化”是多種算法模型帶來的的多樣化。
在生物信息分析計(jì)算過程中,一套系統(tǒng)會(huì)同時(shí)存在多種算法模型的運(yùn)行實(shí)例,而每個(gè)算法的實(shí)現(xiàn)都對數(shù)據(jù)存取有不一樣的要求,有的要求吞吐、有的要求Ops、有的要求元數(shù)據(jù)訪問的延遲,多樣化的IO模式給數(shù)據(jù)存取效率帶來了很大的挑戰(zhàn)。面對這種多樣化的IO存儲(chǔ)模式,存儲(chǔ)需要進(jìn)行相應(yīng)的優(yōu)化和動(dòng)態(tài)調(diào)整,才能滿足數(shù)據(jù)分析的需要。
比如計(jì)算集群登陸節(jié)點(diǎn)交互操作多,要求數(shù)據(jù)和元數(shù)據(jù)的訪問延遲,而計(jì)算節(jié)點(diǎn)很可能一段時(shí)間內(nèi)是吞吐密集,另一個(gè)算法同時(shí)需要求高的Ops。解決這種多IO模式共存情況下數(shù)據(jù)存取的效能,需要計(jì)算系統(tǒng)和存儲(chǔ)系統(tǒng)的協(xié)同,極道獨(dú)創(chuàng)的“應(yīng)用感知”理論,其目的是要存儲(chǔ)系統(tǒng)通過高級策略根據(jù)應(yīng)用算法多樣化IO模式進(jìn)行實(shí)時(shí)調(diào)整,盡可能把存儲(chǔ)的數(shù)據(jù)存取效能在多樣化計(jì)算過程中發(fā)揮到極致。
事實(shí)上,生命科學(xué)數(shù)據(jù)所面對的四個(gè)層次的“多樣化”,在很多的行業(yè)中都有共性表現(xiàn),面對“多樣化”挑戰(zhàn),需要各種各樣的“門道”。極道有“道”,能夠用產(chǎn)品和優(yōu)勢技術(shù)把所有的“道兒”都發(fā)揮到極致。
這就是極道作為一個(gè)數(shù)據(jù)系統(tǒng)公司與傳統(tǒng)的存儲(chǔ)公司、或者IT系統(tǒng)公司的不同之處。極道不僅站在系統(tǒng)公司的角度設(shè)計(jì)和研發(fā)產(chǎn)品,更重要的是還能夠深度理解行業(yè)應(yīng)用、根據(jù)行業(yè)用戶的真實(shí)數(shù)據(jù)需要設(shè)計(jì)產(chǎn)品,來迎接行業(yè)所面臨的多樣化數(shù)據(jù)挑戰(zhàn)。
目前,極道的數(shù)據(jù)系統(tǒng)產(chǎn)品在國內(nèi)外頂級的基因公司、臨床檢測公司、國家級科研機(jī)構(gòu)、藥物研發(fā)等領(lǐng)域廣泛應(yīng)用,并收獲眾多客戶好評。未來,極道仍將不斷提供創(chuàng)新的技術(shù)與產(chǎn)品,為生物基因技術(shù)的快速發(fā)展發(fā)揮重要作用。
關(guān)于極道
極道,專注于數(shù)據(jù)“存”、“管”、“算”的創(chuàng)新數(shù)據(jù)系統(tǒng)公司,由國內(nèi)頂尖的存儲(chǔ)和數(shù)據(jù)分析專家團(tuán)隊(duì)組建。以分布式并行文件存儲(chǔ)、強(qiáng)關(guān)聯(lián)大規(guī)模實(shí)時(shí)數(shù)據(jù)管理系統(tǒng),以及集群的調(diào)度系統(tǒng)和執(zhí)行引擎為核心產(chǎn)品,滿足企業(yè)對數(shù)據(jù)處理、分析和建模的多樣化需求,幫助客戶迅速提升IT資源效率,將海量非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為真正的數(shù)據(jù)資產(chǎn)。
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個(gè)字
圖片新聞
最新活動(dòng)更多
-
11月19日立即報(bào)名>> 【線下論壇】華邦電子與恩智浦聯(lián)合技術(shù)論壇
-
11月29日立即預(yù)約>> 【上海線下】設(shè)計(jì),易如反掌—Creo 11發(fā)布巡展
-
即日-12.26火熱報(bào)名中>> OFweek2024中國智造CIO在線峰會(huì)
-
精彩回顧立即查看>> 2024(第五屆)全球數(shù)字經(jīng)濟(jì)產(chǎn)業(yè)大會(huì)暨展覽會(huì)
-
精彩回顧立即查看>> 全數(shù)會(huì)2024中國人形機(jī)器人技術(shù)創(chuàng)新發(fā)展大會(huì)
-
精彩回顧立即查看>> OFweek 2024中國激光產(chǎn)業(yè)高質(zhì)量發(fā)展峰會(huì)
- 高級軟件工程師 廣東省/深圳市
- 自動(dòng)化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市