訂閱
糾錯(cuò)
加入自媒體

當(dāng)開源技術(shù)遇上大數(shù)據(jù)創(chuàng)新

大數(shù)據(jù)新興技術(shù)不斷涌現(xiàn),讓我們更容易更精準(zhǔn)的從海量繁雜的數(shù)據(jù)中提取有用價(jià)值。開源作為一種推動(dòng)大數(shù)據(jù)技術(shù)創(chuàng)新的新模式,正廣受技術(shù)開發(fā)人員的熱愛。

一、大數(shù)據(jù)市場(chǎng)前景無(wú)限

近年來(lái),我國(guó)大數(shù)據(jù)政策頻頻發(fā)布,2014年“大數(shù)據(jù)”的概念首次正式寫入《政府工作報(bào)告》,其后的2015年是大數(shù)據(jù)政策頂層設(shè)計(jì)年、2016年政策細(xì)化落地,國(guó)家發(fā)改委、環(huán)保部、工信部、國(guó)家林業(yè)局、農(nóng)業(yè)部等均推出了關(guān)于大數(shù)據(jù)的發(fā)展意見和方案,2017年,大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展正從理論研究加速進(jìn)入應(yīng)用時(shí)代,大數(shù)據(jù)與前沿科技的結(jié)合也越來(lái)越緊密。2017年,習(xí)近平明確要求實(shí)施國(guó)家大數(shù)據(jù)戰(zhàn)略,加快建設(shè)數(shù)字中國(guó)。隨著一系列利好政策的發(fā)布,大數(shù)據(jù)創(chuàng)業(yè)公司不斷涌現(xiàn),風(fēng)險(xiǎn)投資等機(jī)構(gòu)也在追逐這個(gè)行業(yè)。大數(shù)據(jù)領(lǐng)域的創(chuàng)新創(chuàng)業(yè)變?yōu)槌B(tài),形成了大數(shù)據(jù)領(lǐng)域創(chuàng)新的力量。

大數(shù)據(jù)作為一種不會(huì)枯竭并且不斷增值的重要的資源,是經(jīng)濟(jì)社會(huì)發(fā)展的重要推力,市場(chǎng)前途不可限量。從2014到2020年我國(guó)大數(shù)據(jù)市場(chǎng)規(guī)模不斷擴(kuò)大,其中2017-2018年正是市場(chǎng)高速成長(zhǎng)期,大數(shù)據(jù)龍頭企業(yè)較多,小微企業(yè)也分得龐大市場(chǎng)中的一杯羹。大數(shù)據(jù)產(chǎn)業(yè)整體蓬勃,未來(lái)向好。

二、開源推動(dòng)大數(shù)據(jù)技術(shù)創(chuàng)新

開源,就是開放源碼,意味著免費(fèi)和自由的進(jìn)行二次開發(fā),如當(dāng)下最為廣泛使用的hadoop生態(tài)系統(tǒng)。開源大數(shù)據(jù)技術(shù)是一種新一代技術(shù)和構(gòu)架,它以成本較低、以快速的采集、處理和分析技術(shù),從各種超大規(guī)模的數(shù)據(jù)中提取價(jià)值。通過(guò)開放式的平臺(tái),吸引全球開發(fā)者集智共謀技術(shù)發(fā)展,開源將成為大數(shù)據(jù)技術(shù)創(chuàng)新的主要模式。目前,大數(shù)據(jù)分析處理流程中所使用的關(guān)鍵技術(shù)幾乎都源自開源模式。

開放源代碼對(duì)人工智能、區(qū)塊鏈等前沿科技都具有重要影響力。源代碼與這些高技術(shù)的結(jié)合點(diǎn)頗多,創(chuàng)新創(chuàng)業(yè)機(jī)會(huì)較多,研發(fā)項(xiàng)目在不斷涌現(xiàn)。

國(guó)際上較受歡迎的開源大數(shù)據(jù)項(xiàng)目:

1.OpenCog和OpenCogPrime

2018年尖端技術(shù)潮流的一個(gè)典型例子——OpenCog項(xiàng)目被設(shè)計(jì)為面向虛擬和機(jī)器人功能的體系結(jié)構(gòu)。用Python、C ++和Linux上Scheme 編寫,與匹配一般智能和超越人類級(jí)別的目的相聯(lián)系。還致力于實(shí)現(xiàn)其更加實(shí)際的研究和開發(fā)目標(biāo),同時(shí)精簡(jiǎn)其開源產(chǎn)品以實(shí)際應(yīng)用。

2.Hyperledger

Hyperledger是在2015年由Linux基金會(huì)建立的,該項(xiàng)目最終目標(biāo)是提供一系列開源的區(qū)塊鏈和其他有用元素的工具箱。作為一個(gè)頂尖的科技趨勢(shì),區(qū)塊鏈在2018年的最熱門領(lǐng)域中備受矚目,Gartner將其列入今年企業(yè)的最高戰(zhàn)略趨勢(shì)。

3.Kubernetes

Kubernetes是一個(gè)開源系統(tǒng),專為部署自動(dòng)化和容器化應(yīng)用程序的管理而設(shè)計(jì)。隨著谷歌的播種,該系統(tǒng)現(xiàn)在處于云原生計(jì)算基金會(huì)的管理之下。Kubernetes最引人注目的,是它與Docker合作密切。Kubernetes也得到了廣泛和高調(diào)的推動(dòng),被Pivotal、Red Hat、OpenShift和IBM等公司支持。

4.TensorFlow

TensorFlow也許是最知名的開源項(xiàng)目,谷歌是該項(xiàng)目的主要倡導(dǎo)者,現(xiàn)已衍化為一個(gè)軟件庫(kù),可以用于編程和數(shù)據(jù)流的目的,為廣泛的用例提供服務(wù)。該項(xiàng)目還涉及當(dāng)前的熱門技術(shù)趨勢(shì),即機(jī)器學(xué)習(xí),雖然這項(xiàng)技術(shù)并非是一個(gè)新事物,但隨著在追求一系列不同結(jié)果時(shí)變得越來(lái)越受歡迎,這種技術(shù)一直在獲得牽引力。

5.Vault

Vault是開源項(xiàng)目另一熱點(diǎn)領(lǐng)域,提供了一種在傳輸過(guò)程中加密數(shù)據(jù)的工具,并且除了對(duì)其它信息進(jìn)行一般安全管理之外,還越來(lái)越關(guān)注GDPR的相關(guān)修訂。Vault的制造商還強(qiáng)調(diào)撤銷功能是最大的亮點(diǎn),有效保護(hù)有價(jià)值的數(shù)據(jù)。隨著信息安全問(wèn)題的不斷加劇,Vault已成為十分重要的開源項(xiàng)目。

我國(guó)較突出的開源大數(shù)據(jù)項(xiàng)目:

1. 百度——希望獲得開發(fā)者青睞的 “PaddlePaddle”

2016年9月1日,國(guó)內(nèi)第一個(gè)機(jī)器學(xué)習(xí)開源平臺(tái)PaddlePaddle誕生。

PaddlePaddle 能在多 GPU,多臺(tái)機(jī)器上進(jìn)行并行計(jì)算。相比現(xiàn)有深度學(xué)習(xí)框架,PaddlePaddle 對(duì)開發(fā)者來(lái)說(shuō)有易用性、快速等優(yōu)勢(shì)。許多資深開發(fā)者認(rèn)為PaddlePaddle 的設(shè)計(jì)理念與 Caffe 十分相似,懷疑是百度對(duì)標(biāo) Caffe 開發(fā)出的替代品。業(yè)內(nèi)對(duì) PaddlePaddle 的總體評(píng)價(jià)是“設(shè)計(jì)干凈、簡(jiǎn)潔,穩(wěn)定,速度較快。

2. 騰訊——面向企業(yè)的 “Angel”

Angel 將成為PaddlePaddle 之后、BAT 發(fā)布的第二個(gè)重磅開源平臺(tái)。Angel 是面向機(jī)器學(xué)習(xí)的分布式計(jì)算框架,它為企業(yè)級(jí)大規(guī)模機(jī)器學(xué)習(xí)任務(wù)提供解決方案,可與 Caffe、TensorFlow 和Torch 等業(yè)界主流深度學(xué)習(xí)框架很好地兼容!癆ngel 采用多種業(yè)界最新技術(shù)和騰訊自主研發(fā)技術(shù)使得 Angel 性能大幅提高,達(dá)到 Spark 的數(shù)倍到數(shù)十倍,能在千萬(wàn)到十億級(jí)的特征維度條件下運(yùn)行!

3. 阿里巴巴——猶抱琵牌半遮面的 DTPAI

阿里在2015 年就宣布了數(shù)據(jù)挖據(jù)平臺(tái) DTPAI , DTPAI 將集成阿里巴巴核心算法庫(kù),包括特征工程、大規(guī)模機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等等。其次,與百度、騰訊一樣,阿里也很重視旗下產(chǎn)品的易用性。阿里 ODPS 和 iDST 產(chǎn)品經(jīng)理韋嘯表示,DTPAI 支持鼠標(biāo)拖拽的編程可視化,也支持模型可視化;并且廣泛與MapReduce、Spark、DMLC、R 等開源技術(shù)對(duì)接。

4. 山世光——大陸學(xué)界碩果僅存的 SeetaFace

SeetaFace 基于 C++,不依賴于任何第三方的庫(kù)函數(shù)。作為一套全自動(dòng)人臉識(shí)別系統(tǒng),它集成了三個(gè)核心模塊,即:人臉檢測(cè)模塊、面部特征點(diǎn)定位模塊以及人臉特征提取與比對(duì)模塊。 SeetaFace 將供學(xué)界和工業(yè)界免費(fèi)使用。它的開源,有望幫助大量有人臉識(shí)別任務(wù)需求的公司與實(shí)驗(yàn)室,在它們的產(chǎn)品服務(wù)中接入 SeetaFace,大幅減少開發(fā)成本。

三、開源大數(shù)據(jù)的發(fā)展趨勢(shì)

開源讓越來(lái)越多的項(xiàng)目可以直接采用大數(shù)據(jù)技術(shù),不斷的推動(dòng)著大數(shù)據(jù)的創(chuàng)業(yè)創(chuàng)新,賽智時(shí)代分析師認(rèn)為未來(lái)開源大數(shù)據(jù)將向以下三個(gè)方向發(fā)展:

1.容器技術(shù)愈受歡迎

容器技術(shù)能夠使代碼在任意環(huán)境中快速地 “接入并運(yùn)行”,降低企業(yè)時(shí)間和資金成本。其速度和靈活性能夠決定促使業(yè)務(wù)成功開展。

2.Hadoop與Spark應(yīng)用增加

據(jù)福瑞斯特研究顯示,Hadoop正以32.9%的速度增長(zhǎng)。由于其可以降低企業(yè)成本且可以快速改進(jìn),很多企業(yè)表示會(huì)繼續(xù)擴(kuò)大相應(yīng)的技術(shù)應(yīng)用,所以未來(lái)Hadoop將會(huì)更加普及。而另一位后起之秀Spak在迭代計(jì)算上具有比Hadoop更高的效率并且數(shù)據(jù)集操作類型的開發(fā)更廣泛,未來(lái)的廣泛應(yīng)用也是指日可待的。

3. 智能開源技術(shù)的應(yīng)用更深入

人工智能正慢慢普及,全新的智能開源解決方案將改變?nèi)藗兒拖到y(tǒng)交互的方式,轉(zhuǎn)變由來(lái)已久的工作觀念,加深行業(yè)大數(shù)據(jù)的應(yīng)用。

目前,我國(guó)開源產(chǎn)品較國(guó)外來(lái)講水平不是很高,更多的時(shí)候國(guó)內(nèi)的企業(yè)還只是開源的使用者和借鑒者,還沒(méi)有到發(fā)明創(chuàng)造的階段。雖說(shuō)技術(shù)的發(fā)展是全球化的,技術(shù)開發(fā)的交互性促進(jìn)了技術(shù)的不斷突破,然而我們卻不能過(guò)分依賴于“拿來(lái)主義”,賽智時(shí)代分析師認(rèn)為,抵制以低成本換來(lái)高性能的產(chǎn)品或系統(tǒng)的誘惑,加大我國(guó)創(chuàng)業(yè)團(tuán)隊(duì)的研發(fā)投入,保持持續(xù)的自主創(chuàng)新才能穩(wěn)定國(guó)家產(chǎn)業(yè)的發(fā)展。

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯(cuò)
x
*文字標(biāo)題:
*糾錯(cuò)內(nèi)容:
聯(lián)系郵箱:
*驗(yàn) 證 碼:

粵公網(wǎng)安備 44030502002758號(hào)