大數(shù)據(jù)小知識:四種數(shù)據(jù)處理系統(tǒng)各自的特征與優(yōu)勢
大數(shù)據(jù)中蘊含的寶貴價值成為人們存儲和處理大數(shù)據(jù)的驅(qū)動力,因此海量數(shù)據(jù)的處理對于當前存在的技術(shù)來說是一種極大的挑戰(zhàn)。目前,人們對大數(shù)據(jù)的處理形式主要是對靜態(tài)數(shù)據(jù)的批量處理,對在線數(shù)據(jù)的實時處理,以及對圖數(shù)據(jù)的綜合處理。其中,在線數(shù)據(jù)的實時處理又包括對流式數(shù)據(jù)的處理和實時交互計算兩種。本文將詳細闡述上述4種數(shù)據(jù)形式特征以及各自的處理系統(tǒng)。
利用批量數(shù)據(jù)挖掘合適的模式,得出具體的含義,制定明智的決策,最終做出有效的應(yīng)對措施實現(xiàn)業(yè)務(wù)目標是大數(shù)據(jù)批處理的首要任務(wù)。大數(shù)據(jù)的批量處理系統(tǒng)適用于先存儲后計算,實時性要求不高,同時數(shù)據(jù)的準確性和全面性更為重要的場景。
批量數(shù)據(jù)的特征通常有3個。
第一,數(shù)據(jù)體量巨大。數(shù)據(jù)從TB級別躍升到PB級別。數(shù)據(jù)是以靜態(tài)的形式存儲在硬盤中,很少進行更新,存儲時間長,可以重復(fù)利用,然而這樣大批量的數(shù)據(jù)不容易對其進行移動和備份。
第二,數(shù)據(jù)精確度高。批量數(shù)據(jù)往往是從應(yīng)用中沉淀下來的數(shù)據(jù),因此精度相對較高,是企業(yè)資產(chǎn)的一部分寶貴財富。
第三,數(shù)據(jù)價值密度低。以視頻批量數(shù)據(jù)為例,在連續(xù)不斷的監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅有一兩秒。因此,需要通過合理的算法才能從批量的數(shù)據(jù)中抽取有用的價值。此外,批量數(shù)據(jù)處理往往比較耗時,而且不提供用戶與系統(tǒng)的交互手段,所以當發(fā)現(xiàn)處理結(jié)果和預(yù)期或與以往的結(jié)果有很大差別時,會浪費很多時間。因此,批量數(shù)據(jù)處理適合大型的相對比較成熟的作業(yè)。
Google于2010年推出了Dremel,引領(lǐng)業(yè)界向?qū)崟r數(shù)據(jù)處理邁進。實時數(shù)據(jù)處理是針對批量數(shù)據(jù)處理的性能問題提出的,可分為流式數(shù)據(jù)處理和交互式數(shù)據(jù)處理兩種模式。在大數(shù)據(jù)背景下,流式數(shù)據(jù)處理源于服務(wù)器日志的實時采集,交互式數(shù)據(jù)處理的目標是將PB級數(shù)據(jù)的處理時間縮短到秒級。通俗而言,流式數(shù)據(jù)是一個無窮的數(shù)據(jù)序列,序列中的每一個元素來源各異,格式復(fù)雜,序列往往包含時序特性,或者有其他的有序標簽(如IP報文中的序號)。從數(shù)據(jù)庫的角度而言,每一個元素可以看作是一個元組,而元素的特性則類比于元組的屬性。流式數(shù)據(jù)在不同的場景下往往體現(xiàn)出不同的特征,如流速大小、元素特性數(shù)量、數(shù)據(jù)格式等,但大部分流式數(shù)據(jù)都含有共同的特征,這些特征便可用來設(shè)計通用的流式數(shù)據(jù)處理系統(tǒng)。
下面簡要介紹流式數(shù)據(jù)共有的特征。
首先,流式數(shù)據(jù)的元組通常帶有時間標簽或其余含序?qū)傩。因此,同一流式?shù)據(jù)往往是被按序處理的。然而數(shù)據(jù)的到達順序是不可預(yù)知的,由于時間和環(huán)境的動態(tài)變化,無法保證重放數(shù)據(jù)流與之前數(shù)據(jù)流中數(shù)據(jù)元素順序的一致性。這就導(dǎo)致了數(shù)據(jù)的物理順序與邏輯順序不一致。而且,數(shù)據(jù)源不受接收系統(tǒng)的控制,數(shù)據(jù)的產(chǎn)生是實時的、不可預(yù)知的。此外,數(shù)據(jù)的流速往往有較大的波動,因此需要系統(tǒng)具有很好的可伸縮性,能夠動態(tài)適應(yīng)不確定流入的數(shù)據(jù)流,具有很強的系統(tǒng)計算能力和大數(shù)據(jù)流量動態(tài)匹配的能力。
其次,數(shù)據(jù)流中的數(shù)據(jù)格式可以是結(jié)構(gòu)化的、半結(jié)構(gòu)化的甚至是無結(jié)構(gòu)化的。數(shù)據(jù)流中往往含有錯誤元素、垃圾信息等。因此流式數(shù)據(jù)的處理系統(tǒng)要有很好的容錯性與異構(gòu)數(shù)據(jù)分析能力,能夠完成數(shù)據(jù)的動態(tài)清洗、格式處理等。最后,流式數(shù)據(jù)是活動的(用完即棄),隨著時間的推移不斷增長,這與傳統(tǒng)的數(shù)據(jù)處理模型(存儲?查詢)不同,要求系統(tǒng)能夠根據(jù)局部數(shù)據(jù)進行計算,保存數(shù)據(jù)流的動態(tài)屬性。流式處理系統(tǒng)針對該特性,應(yīng)當提供流式查詢接口,即提交動態(tài)的SQL語句,實時地返回當前結(jié)果。
與非交互式數(shù)據(jù)處理相比,交互式數(shù)據(jù)處理靈活、直觀、便于控制。系統(tǒng)與操作人員以人機對話的方式一問一答——操作人員提出請求,數(shù)據(jù)以對話的方式輸入,系統(tǒng)便提供相應(yīng)的數(shù)據(jù)或提示信息,引導(dǎo)操作人員逐步完成所需的操作,直至獲得最后處理結(jié)果。采用這種方式,存儲在系統(tǒng)中的數(shù)據(jù)文件能夠被及時處理修改,同時處理結(jié)果可以立刻被使用。交互式數(shù)據(jù)處理具備的這些特征能夠保證輸入的信息得到及時處理,使交互方式繼續(xù)進行下去。
圖由于自身的結(jié)構(gòu)特征,可以很好地表示事物之間的關(guān)系,在近幾年已成為各學(xué)科研究的熱點。圖中點和邊的強關(guān)聯(lián)性,需要圖數(shù)據(jù)處理系統(tǒng)對圖數(shù)據(jù)進行一系列的操作,包括圖數(shù)據(jù)的存儲、圖查詢、最短路徑查詢、關(guān)鍵字查詢、圖模式挖掘以及圖數(shù)據(jù)的分類、聚類等。隨著圖中節(jié)點和邊數(shù)的增多(達到幾千萬甚至上億數(shù)),圖數(shù)據(jù)處理的復(fù)雜性給圖數(shù)據(jù)處理系統(tǒng)提出了嚴峻的挑戰(zhàn)。下面主要闡述圖數(shù)據(jù)的特征和典型應(yīng)用以及代表性的圖數(shù)據(jù)處理系統(tǒng)。
圖數(shù)據(jù)中主要包括圖中的節(jié)點以及連接節(jié)點的邊,通常具有3個特征。
第一,節(jié)點之間的關(guān)聯(lián)性。圖中邊的數(shù)量是節(jié)點數(shù)量的指數(shù)倍,因此,節(jié)點和關(guān)系信息同等重要,圖結(jié)構(gòu)的差異也是由于對邊做了限制,在圖中,頂點和邊實例化構(gòu)成各種類型的圖,如標簽圖、屬性圖、語義圖以及特征圖等。
第二,圖數(shù)據(jù)的種類繁多。在許多領(lǐng)域中,使用圖來表示該鄰域的數(shù)據(jù),如生物、化學(xué)、計算機視覺、模式識別、信息檢索、社會網(wǎng)絡(luò)、知識發(fā)現(xiàn)、動態(tài)網(wǎng)絡(luò)交通、語義網(wǎng)、情報分析等。每個領(lǐng)域?qū)D數(shù)據(jù)的處理需求不同,因此,沒有一個通用的圖數(shù)據(jù)處理系統(tǒng)滿足所有領(lǐng)域的需求。
第三,圖數(shù)據(jù)計算的強耦合性。在圖中,數(shù)據(jù)之間是相互關(guān)聯(lián)的,因此,對圖數(shù)據(jù)的計算也是相互關(guān)聯(lián)的。這種數(shù)據(jù)耦合的特性對圖的規(guī)模日益增大達到上百萬甚至上億節(jié)點的大圖數(shù)據(jù)計算提出了巨大的挑戰(zhàn)。大圖數(shù)據(jù)是無法使用單臺機器進行處理的,但如果對大圖數(shù)據(jù)進行并行處理,對于每一個頂點之間都是連通的圖來講,難以分割成若干完全獨立的子圖進行獨立的并行處理;即使可以分割,也會面臨并行機器的協(xié)同處理,以及將最后的處理結(jié)果進行合并等一系列問題。這需要圖數(shù)據(jù)處理系統(tǒng)選取合適的圖分割以及圖計算模型來迎接挑戰(zhàn)并解決問題。
四種大數(shù)據(jù)各自的特點和處理方式都記住了嗎,使用的時候要根據(jù)不同的情況來考量哦。
想要獲取更多大數(shù)據(jù)相關(guān)資訊和知識,關(guān)注微信公眾號成都科多大數(shù)據(jù)就能看到啦。
最新活動更多
-
11月20日火熱報名中>> 2024 智能家居出海論壇
-
11月28日立即報名>>> 2024工程師系列—工業(yè)電子技術(shù)在線會議
-
12月19日立即報名>> 【線下會議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會
-
即日-12.26火熱報名中>> OFweek2024中國智造CIO在線峰會
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍皮書》
-
精彩回顧立即查看>> 【在線會議】多物理場仿真助跑新能源汽車
推薦專題
- 1 腦機接口芯片,華為出了新專利!
- 2 銀行業(yè)AI大模型,從入局到求變
- 3 巨頭搶布局,VC狂撒錢,為了能讓「AI讀心」這些公司卷瘋了
- 4 阿斯麥ASML:“骨折級”洋相,又成AI第一殺手?
- 5 蘋果市值創(chuàng)新高,iPhone 16能否助力突破4萬億美元大關(guān)?
- 6 地平線開啟配售,阿里百度各砸5000萬美金,市值最高超500億
- 7 小馬智行沖刺納斯達克:或成「全球Robotaxi第一股」,兩年半營收約12億元
- 8 云從科技:營收低迷與虧損加劇,2025年盈利目標挑戰(zhàn)重重
- 9 AI奇跡:域名賣爆,無名小島意外賺2億
- 10 逆境求生,泄密風(fēng)波中的高精地圖
- 高級軟件工程師 廣東省/深圳市
- 自動化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市