訂閱
糾錯(cuò)
加入自媒體

SparkSQL對于批流支持的特性及批流一體化支持框架的難點(diǎn)

2020-12-24 12:10
EAWorld
關(guān)注

二、基于SparkSQL-Flow的

分析框架

何為 SparkSQL-Flow

1.一個(gè)由普元技術(shù)部提供的基于 SparkSQL 的開發(fā)模型;

2.一個(gè)可二次定制開發(fā)的大數(shù)據(jù)開發(fā)框架,提供了靈活的可擴(kuò)展 API;

3.一個(gè)提供了 對文件,數(shù)據(jù)庫,NoSQL、流處理等統(tǒng)一的數(shù)據(jù)開發(fā)模式;

4.基于 SQL 的開發(fā)語言和 XML 的模板配置,支持 SparkSQL UDF 的擴(kuò)展管理;

5.支持基于 Spark Standlone,Yarn,Mesos 資源管理平臺(tái);

6.支持多種平臺(tái)Kerberos認(rèn)證(開源、華為、星環(huán))等平臺(tái)統(tǒng)一認(rèn)證;

SparkSQL Flow XML 概覽

用戶只需要定義 Source,Transformer,Target 幾個(gè)核心組件:

1.Source 數(shù)據(jù)源:支持Data、DB、File、NoSQL、MQ 等眾多源;

2.Transformer 為上述定義的數(shù)據(jù)源和已有的Transformer 間的組合操作,一般為SQL;

3.Target 為輸出目標(biāo),支持show、DB、File、NoSQL、MQ 等眾多目標(biāo),支持類型基本和源相同;

4.用戶可以在Properties定義一些變量,作為Source/Transformer/Target 的宏替換;

SparkSQL Flow 適合的場景

1.批量 ETL;

2.非實(shí)時(shí)分析服務(wù);

3.流式 ETL;

支持從多種獲得數(shù)據(jù)源:

1.支持文件:JSON、TextFile(CSV)、ParquetFile、AvroFile

2.大數(shù)據(jù):Hive、HDFS

3.支持RDBMS數(shù)據(jù)庫:PostgreSQL、 MySQL、Oracle

4.支持 NOSQL 數(shù)據(jù)庫:Hbase、MongoDB、Redis

5.Streaming:JMS、AMQP、Kafka、Socket

<上一頁  1  2  3  下一頁>  
聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報(bào)。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個(gè)字

您提交的評論過于頻繁,請輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評論

暫無評論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯(cuò)
x
*文字標(biāo)題:
*糾錯(cuò)內(nèi)容:
聯(lián)系郵箱:
*驗(yàn) 證 碼:

粵公網(wǎng)安備 44030502002758號(hào)