国产大秀视频在线一区二区,国产一级淫片a免费播放口,国产成人无码精品视频

<tbody id="pl7yk"></tbody>

<progress id="pl7yk"><th id="pl7yk"></th></progress>

<form id="pl7yk"><dfn id="pl7yk"></dfn></form>

當(dāng)前位置： OFweek 人工智能網(wǎng) > 正文

基于Spark的數(shù)據(jù)分析實(shí)踐

2019-06-19 09:55

對(duì)RegisterDataFrameAsTable的分析

通過單個(gè) regiserDataFrameAsTable 項(xiàng)進(jìn)行分析，SparkSQL 并不是把source 的數(shù)據(jù)立即計(jì)算把數(shù)據(jù)放到內(nèi)存，而是每次執(zhí)行 source 時(shí)只是生成了一個(gè) Logical Plan，只有遇到需要提交的算子（Action），SparkSQL 才會(huì)觸發(fā)前面所依賴的的 plan 執(zhí)行。

總結(jié)

這是一個(gè)開發(fā)框架，不是一個(gè)成熟的產(chǎn)品，也不是一種架構(gòu)。他只是基于 SparkSQL 整合了大多數(shù)的外部系統(tǒng)，能通過 XML 的模板配置完成數(shù)據(jù)開發(fā)。面向的是理解數(shù)據(jù)業(yè)務(wù)但不了解 Spark 的數(shù)據(jù)開發(fā)人員。整個(gè)框架完成了大多數(shù)的外部系統(tǒng)對(duì)接，開發(fā)者只需要使用 type 獲得數(shù)據(jù)，完成數(shù)據(jù)開發(fā)后通過 target 回寫到目標(biāo)系統(tǒng)中。整個(gè)過程基本無須程序開發(fā)，除非當(dāng)前的 SQL 函數(shù)無法滿足使用的情況下，需要自行開發(fā)一下特定的 UDF。因此本框架在對(duì) SparkSQL 做了二次開發(fā)基礎(chǔ)上，大大簡化了 Spark 的開發(fā)，可降低了開發(fā)者使用難度。

精選提問：

問1：和Fink平臺(tái)有什么優(yōu)勢(shì)么？

答：Flink 應(yīng)該對(duì)標(biāo) Spark Streaming 的解決方案，是另一種可選流數(shù)據(jù)引擎。Flink 也采用了 Scala 語言，內(nèi)部原理和操作數(shù)據(jù)方式頗有相似之處，是 SparkStreaming 之外流數(shù)據(jù)處理一種選型。基于 SparkSQL Flow 的架構(gòu)主要側(cè)重批量數(shù)據(jù)分析，非實(shí)時(shí) ETL 方面。

問2：這些應(yīng)該是源數(shù)據(jù)庫吧，請(qǐng)問目標(biāo)數(shù)據(jù)庫支持哪些？

答：目前的實(shí)現(xiàn)目標(biāo)數(shù)據(jù)基本支持所有的源。

問3：你們產(chǎn)品是軟件開發(fā)平臺(tái)，spark和你們開發(fā)平臺(tái)啥關(guān)系？

答：普元針對(duì)部分成熟場(chǎng)景提供了一些開發(fā)平臺(tái)和工具，也在參與了一些大數(shù)據(jù)項(xiàng)目建設(shè)。對(duì)于大規(guī)模數(shù)據(jù)的數(shù)據(jù)報(bào)表，數(shù)據(jù)質(zhì)量分析也需要適應(yīng)大數(shù)據(jù)的技術(shù)場(chǎng)景，Spark 作為Hadoop 內(nèi)比較成熟的解決方案，因此作為主要的選型工具。在參與部分項(xiàng)目實(shí)施過程中，通過對(duì)一些開發(fā)中的痛點(diǎn)針對(duì)性的提取了應(yīng)用框架。

問4：對(duì)于ETL中存在的merge、update的數(shù)據(jù)匹配、整合處理，Spark SQL Flow有沒有好的解決方法？

答：merge 和 update 在數(shù)據(jù)開發(fā)過程不可避免，往往對(duì)數(shù)據(jù)庫造成較大壓力。大數(shù)據(jù)場(chǎng)景下不建議逐條對(duì)數(shù)據(jù)做 update 操作，更好的辦法是在數(shù)據(jù)處理階段通過 join 把結(jié)果集在寫入目標(biāo)前準(zhǔn)備好，統(tǒng)一一次性寫入到目標(biāo)數(shù)據(jù)庫。查詢操作通過換庫使用新庫，這中操作一般適合數(shù)據(jù)量比較大，數(shù)據(jù)更新頻率較低的情況。如果目標(biāo)庫是 HBase 或者其他 MPP 類基于列式的數(shù)據(jù)庫，適當(dāng)?shù)目梢愿�。但是�?dāng)每天有 60％以上的數(shù)據(jù)都需要更新時(shí)，建議還是一次性生成新表。

問5： blink和flink 應(yīng)該如何選取？

答：blink 是阿里巴巴在 flink 基礎(chǔ)上做了部分場(chǎng)景優(yōu)化（只是部分社區(qū)有介紹，并不明確）并且開源，但是考慮到國內(nèi)這些機(jī)構(gòu)開源往往是沒有持久動(dòng)力的。要看采用 Blink 是否用了比較關(guān)鍵的特性。也有消息說 Blink 和 Flink 會(huì)合并，畢竟阿里 Dubbo 前期自己發(fā)展，后期還是捐給了 Apache，因此兩者合并也是有可能。建議選型 Flink。

問6：etl 同步數(shù)據(jù)中主要用哪些工具？

答：這個(gè)要區(qū)分場(chǎng)景。傳統(tǒng)數(shù)據(jù)庫之間，可采用日志同步，也有部分成熟的工具；

傳統(tǒng)數(shù)據(jù)庫和Hadoop 生態(tài)內(nèi)（HBase，HIVE）同步可使用 apache sqoop。 SparkSQL Flow 可以作為數(shù)據(jù)同步的另一種方案，可用在實(shí)時(shí)性不高的場(chǎng)景。SparkSQL Flow 更側(cè)重大數(shù)據(jù)工具，偏向數(shù)據(jù)分析和非實(shí)時(shí) ETL。

<上一頁 1 2 3 4

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號(hào)的作者撰寫，觀點(diǎn)僅代表作者本人，不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題，請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

共0條評(píng)論，0人參與

登錄登錄即可訪問所有OFweek服務(wù)

用戶名/郵箱/手機(jī)：
密碼：
忘記密碼？
用其他賬號(hào)登錄： QQ | 微信 | 新浪微博

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字

暫無評(píng)論

暫無評(píng)論

圖片新聞

最新發(fā)布

最新活動(dòng)更多

即日-11.13
立即報(bào)名>>> 【在線會(huì)議】多物理場(chǎng)仿真助跑新能源汽車
11月20日
火熱報(bào)名中>> 2024 智能家居出海論壇
11月28日
立即報(bào)名>>> 2024工程師系列—工業(yè)電子技術(shù)在線會(huì)議
12月19日
立即報(bào)名>> 【線下會(huì)議】OFweek 2024（第九屆）物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
即日-12.26
火熱報(bào)名中>> OFweek2024中國智造CIO在線峰會(huì)
即日-2025.8.1
立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書》

一周熱點(diǎn) 月點(diǎn)擊榜

企業(yè)服務(wù) 廣告服務(wù) 獵頭服務(wù) 薪酬報(bào)告

人工智能獵頭職位更多

高級(jí)軟件工程師廣東省/深圳市
自動(dòng)化高級(jí)工程師廣東省/深圳市
光器件研發(fā)工程師福建省/福州市
銷售總監(jiān)（光器件）北京市/海淀區(qū)
激光器高級(jí)銷售經(jīng)理上海市/虹口區(qū)
光器件物理工程師北京市/海淀區(qū)
激光研發(fā)工程師北京市/昌平區(qū)
技術(shù)專家廣東省/江門市
封裝工程師北京市/海淀區(qū)
結(jié)構(gòu)工程師廣東省/深圳市

掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容

文章糾錯(cuò)

x

_*文字標(biāo)題：

_*糾錯(cuò)內(nèi)容：

聯(lián)系郵箱：

_*驗(yàn) 證碼：

看不清，點(diǎn)擊換一張

粵公網(wǎng)安備 44030502002758號(hào)

<progress id="b727p"><th id="b727p"></th></progress><tt id="b727p"><noframes id="b727p">