SparkSQL對于批流支持的特性及批流一體化支持框架的難點(diǎn)
二、基于SparkSQL-Flow的
分析框架
何為 SparkSQL-Flow
1.一個(gè)由普元技術(shù)部提供的基于 SparkSQL 的開發(fā)模型;
2.一個(gè)可二次定制開發(fā)的大數(shù)據(jù)開發(fā)框架,提供了靈活的可擴(kuò)展 API;
3.一個(gè)提供了 對文件,數(shù)據(jù)庫,NoSQL、流處理等統(tǒng)一的數(shù)據(jù)開發(fā)模式;
4.基于 SQL 的開發(fā)語言和 XML 的模板配置,支持 SparkSQL UDF 的擴(kuò)展管理;
5.支持基于 Spark Standlone,Yarn,Mesos 資源管理平臺(tái);
6.支持多種平臺(tái)Kerberos認(rèn)證(開源、華為、星環(huán))等平臺(tái)統(tǒng)一認(rèn)證;
SparkSQL Flow XML 概覽
用戶只需要定義 Source,Transformer,Target 幾個(gè)核心組件:
1.Source 數(shù)據(jù)源:支持Data、DB、File、NoSQL、MQ 等眾多源;
2.Transformer 為上述定義的數(shù)據(jù)源和已有的Transformer 間的組合操作,一般為SQL;
3.Target 為輸出目標(biāo),支持show、DB、File、NoSQL、MQ 等眾多目標(biāo),支持類型基本和源相同;
4.用戶可以在Properties定義一些變量,作為Source/Transformer/Target 的宏替換;
SparkSQL Flow 適合的場景
1.批量 ETL;
2.非實(shí)時(shí)分析服務(wù);
3.流式 ETL;
支持從多種獲得數(shù)據(jù)源:
1.支持文件:JSON、TextFile(CSV)、ParquetFile、AvroFile
2.大數(shù)據(jù):Hive、HDFS
3.支持RDBMS數(shù)據(jù)庫:PostgreSQL、 MySQL、Oracle
4.支持 NOSQL 數(shù)據(jù)庫:Hbase、MongoDB、Redis
5.Streaming:JMS、AMQP、Kafka、Socket
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個(gè)字
最新活動(dòng)更多
-
即日-11.13立即報(bào)名>>> 【在線會(huì)議】多物理場仿真助跑新能源汽車
-
11月20日火熱報(bào)名中>> 2024 智能家居出海論壇
-
11月28日立即報(bào)名>>> 2024工程師系列—工業(yè)電子技術(shù)在線會(huì)議
-
12月19日立即報(bào)名>> 【線下會(huì)議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
-
即日-12.26火熱報(bào)名中>> OFweek2024中國智造CIO在線峰會(huì)
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書》
推薦專題
- 1 【一周車話】沒有方向盤和踏板的車,你敢坐嗎?
- 2 特斯拉發(fā)布無人駕駛車,還未迎來“Chatgpt時(shí)刻”
- 3 特斯拉股價(jià)大跌15%:Robotaxi離落地還差一個(gè)蘿卜快跑
- 4 馬斯克給的“驚喜”夠嗎?
- 5 打完“價(jià)格戰(zhàn)”,大模型還要比什么?
- 6 馬斯克致敬“國產(chǎn)蘿卜”?
- 7 神經(jīng)網(wǎng)絡(luò),誰是盈利最強(qiáng)企業(yè)?
- 8 比蘋果偉大100倍!真正改寫人類歷史的智能產(chǎn)品降臨
- 9 諾獎(jiǎng)進(jìn)入“AI時(shí)代”,人類何去何從?
- 10 Open AI融資后成萬億獨(dú)角獸,AI人才之爭開啟
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市