大黄无码网站在线观看,在线看片无码永久免费a,国产熟女嘿咻一炮

SparkSQL對于批流支持的特性及批流一體化支持框架的難點(diǎn)

2020-12-24 12:10

二、基于SparkSQL－Flow的

分析框架

何為 SparkSQL－Flow

1．一個(gè)由普元技術(shù)部提供的基于 SparkSQL 的開發(fā)模型；

2．一個(gè)可二次定制開發(fā)的大數(shù)據(jù)開發(fā)框架，提供了靈活的可擴(kuò)展 API；

3．一個(gè)提供了對文件，數(shù)據(jù)庫，NoSQL、流處理等統(tǒng)一的數(shù)據(jù)開發(fā)模式；

4．基于 SQL 的開發(fā)語言和 XML 的模板配置，支持 SparkSQL UDF 的擴(kuò)展管理；

5．支持基于 Spark Standlone，Yarn，Mesos 資源管理平臺(tái)；

6．支持多種平臺(tái)Kerberos認(rèn)證（開源、華為、星環(huán)）等平臺(tái)統(tǒng)一認(rèn)證；

SparkSQL Flow XML 概覽

用戶只需要定義 Source，Transformer，Target 幾個(gè)核心組件：

1．Source 數(shù)據(jù)源：支持Data、DB、File、NoSQL、MQ 等眾多源；

2．Transformer 為上述定義的數(shù)據(jù)源和已有的Transformer 間的組合操作，一般為SQL；

3．Target 為輸出目標(biāo)，支持show、DB、File、NoSQL、MQ 等眾多目標(biāo)，支持類型基本和源相同；

4．用戶可以在Properties定義一些變量，作為Source／Transformer／Target 的宏替換；

SparkSQL Flow 適合的場景

1．批量 ETL；

2．非實(shí)時(shí)分析服務(wù)；

3．流式 ETL；

支持從多種獲得數(shù)據(jù)源：

1．支持文件：JSON、TextFile（CSV）、ParquetFile、AvroFile

2．大數(shù)據(jù)：Hive、HDFS

3．支持RDBMS數(shù)據(jù)庫：PostgreSQL、 MySQL、Oracle

4．支持 NOSQL 數(shù)據(jù)庫：Hbase、MongoDB、Redis

5．Streaming：JMS、AMQP、Kafka、Socket

聲明： 本文由入駐維科號(hào)的作者撰寫，觀點(diǎn)僅代表作者本人，不代表OFweek立場。如有侵權(quán)或其他問題，請聯(lián)系舉報(bào)。

共0條評論，0人參與

登錄登錄即可訪問所有OFweek服務(wù)

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個(gè)字

暫無評論

圖片新聞