聯(lián)邦學(xué)習(xí): 統(tǒng)一數(shù)據(jù)協(xié)作和隱私保護(hù)的技術(shù)解決之道
隨著數(shù)字化經(jīng)濟(jì)時(shí)代的到來,數(shù)據(jù)作為生產(chǎn)要素其價(jià)值愈發(fā)明顯,越來越多的企業(yè)或組織需要與產(chǎn)業(yè)鏈上下游業(yè)務(wù)伙伴在數(shù)據(jù)流通和交易領(lǐng)域進(jìn)行深度合作,只有通過各方數(shù)據(jù)協(xié)同計(jì)算,才能更好地釋放數(shù)據(jù)價(jià)值。
但用戶對(duì)隱私日益重視,政策法規(guī)趨向嚴(yán)格,數(shù)據(jù)協(xié)作和隱私保護(hù)這一矛盾也日益嚴(yán)重,如何用技術(shù)手段來解決這一難題呢? 在聯(lián)邦學(xué)習(xí)的探索中可以幫你找到答案。本文主要內(nèi)容如下:
1. 隱私計(jì)算產(chǎn)生背景:數(shù)據(jù)價(jià)值和隱私
2. 隱私計(jì)算技術(shù)
安全多方計(jì)算
可信執(zhí)行環(huán)境
聯(lián)邦學(xué)習(xí)
3. 聯(lián)邦學(xué)習(xí)的拓展
分布式機(jī)器學(xué)習(xí)
聯(lián)邦學(xué)習(xí)和傳統(tǒng)分布式系統(tǒng)的差異
計(jì)算挑戰(zhàn)
聯(lián)邦學(xué)習(xí)的拓展與安全性
實(shí)際案例講解
1. 數(shù)據(jù)價(jià)值和隱私
為什么需要隱私計(jì)算呢?首先,數(shù)據(jù)的產(chǎn)生過程是分散的,數(shù)據(jù)具有天然的割裂性。不同類型的公司提供不同的業(yè)務(wù)和服務(wù),產(chǎn)生的數(shù)據(jù)類型也是不同的,例如社交公司產(chǎn)生用戶大量的社交數(shù)據(jù),電商產(chǎn)生的是用戶的消費(fèi)數(shù)據(jù)。但是在計(jì)算分析過程中,我們需要以“人”為單位,多維度、全面理解一個(gè)人才能進(jìn)行高效的智能化的推薦。
其次,不同機(jī)構(gòu)有不同的覆蓋范圍,他們分別只能收集到一部分人群的數(shù)據(jù),F(xiàn)階段,智能化的進(jìn)程仍然需要依賴數(shù)據(jù),可數(shù)據(jù)孤島的存在成為人工智能發(fā)展的一大壁壘,極大限制了企業(yè)可利用的數(shù)據(jù)量。
除此之外,在數(shù)據(jù)的實(shí)際應(yīng)用中,企業(yè)也有保護(hù)其核心高價(jià)值數(shù)據(jù)的需求,通過隱私計(jì)算和聯(lián)邦學(xué)習(xí)實(shí)現(xiàn)數(shù)據(jù)的所有權(quán)和使用權(quán)分離是一種有效的解決方式。
2. 隱私計(jì)算技術(shù)
由于企業(yè)和機(jī)構(gòu)對(duì)數(shù)據(jù)自身價(jià)值的保護(hù)以及對(duì)用戶隱私授權(quán)的保護(hù),數(shù)據(jù)被儲(chǔ)存在不同地方,像一個(gè)個(gè)孤島難以被有效的連接互動(dòng)。傳統(tǒng)的商業(yè)協(xié)議無法有效保護(hù)數(shù)據(jù)的安全,原始數(shù)據(jù)一旦出庫(kù),就會(huì)面臨完全失控的風(fēng)險(xiǎn)。
典型的反面案例就是臉書的劍橋門事件。雙方按照協(xié)議:Facebook 將千萬級(jí)別的用戶數(shù)據(jù)轉(zhuǎn)交給劍橋分析公司,用于學(xué)術(shù)研究。但原始數(shù)據(jù)一經(jīng)出庫(kù)后就完全失控,被用于學(xué)術(shù)之外的用途,導(dǎo)致 Facebook 面臨的巨額罰金。
我們需要從技術(shù)層面提供更加安全的解決方案,用來保證數(shù)據(jù)流通協(xié)作過程中達(dá)到數(shù)據(jù)使用權(quán)的細(xì)分。隱私計(jì)算應(yīng)運(yùn)而生,它是數(shù)據(jù)科學(xué)與工程、密碼學(xué)、分布式計(jì)算與存儲(chǔ)的綜合工程,包括多方安全計(jì)算、可信硬件、聯(lián)邦學(xué)習(xí)等多項(xiàng)技術(shù)。
安全多方計(jì)算
講到多方安全計(jì)算(MPC),就會(huì)提到姚氏百萬富翁問題:有兩個(gè)很有錢的富翁,他們想知道誰更有錢,他們又都不想讓除己以外的任何人知道自己實(shí)際有多少錢(即不信任任何第三方)。這是一個(gè)典型的兩方安全計(jì)算案例,需要在不分享原始數(shù)值的情況下,得出想要的結(jié)論。其中相關(guān)的技術(shù)包括:秘密分享,模糊傳輸,同態(tài)加密,混淆電路。
MPC技術(shù)的優(yōu)點(diǎn):?jiǎn)未坞S機(jī)加密,加密數(shù)據(jù)無法重復(fù)使用;?加密數(shù)據(jù)基礎(chǔ)上直接進(jìn)行運(yùn)算,原始數(shù)據(jù)不出庫(kù)/不能被還原;?每次計(jì)算要所有方共同協(xié)調(diào):在計(jì)算前就要確定參與方。
可信執(zhí)行環(huán)境
可信執(zhí)行環(huán)境(TEE)也是一種解決方案:將計(jì)算運(yùn)行在一個(gè)獨(dú)立的環(huán)境中,而且與操作系統(tǒng)并行運(yùn)行。在CPU 上確保 TEE 中代碼和數(shù)據(jù)的機(jī)密性和完整性都得到保護(hù),通過同時(shí)使用硬件和軟件來保護(hù)數(shù)據(jù)和代碼,故而TEE比操作系統(tǒng)更加安全。
市面上常見的解決方案有 Intel 的 SGX,ARM 的 TrustZone,服務(wù)器或者 PC 上的解決方案主要是 Intel 的 SGX;而 arm 的 trustzone 主要用在手機(jī) CPU 上,如手機(jī)里面的指紋識(shí)別,人臉識(shí)別過程的數(shù)據(jù)安全保護(hù)。
可信執(zhí)行環(huán)境依賴芯片隔離機(jī)制,在隔離區(qū)內(nèi),數(shù)據(jù)被解密成明文直接計(jì)算,整體效率會(huì)比較高。但是由于計(jì)算還是在明文層面進(jìn)行,仍然會(huì)帶來對(duì)應(yīng)的安全困擾,比如會(huì)受硬件漏洞影響;而且更新需要硬件升級(jí),無法快速迭代。
聯(lián)邦學(xué)習(xí)
聯(lián)邦學(xué)習(xí)(Federated Learning)是另一種解決方案,也是我們今天重點(diǎn)要講述的方案。
傳統(tǒng)聯(lián)邦學(xué)習(xí)
聯(lián)邦學(xué)習(xí)最早由谷歌提出,用于解決安卓手機(jī)終端用戶在本地更新模型的問題。早期聯(lián)邦學(xué)習(xí)可以在保證數(shù)據(jù)隱私安全及合法合規(guī)的基礎(chǔ)上,通過本地存儲(chǔ)數(shù)據(jù)和模型計(jì)算由邊緣設(shè)備完成,實(shí)現(xiàn)共同建模,提升模型的效果。
聯(lián)邦學(xué)習(xí)能解決問題和適用場(chǎng)景:? 多方數(shù)據(jù)補(bǔ)充,用在樣品數(shù)量不夠充足,數(shù)據(jù)維度不夠豐富的場(chǎng)景;? 保護(hù)數(shù)據(jù)隱私/核心價(jià)值,整個(gè)學(xué)習(xí)訓(xùn)練過程,沒有傳輸任何原始數(shù)據(jù),用來保護(hù)數(shù)據(jù)隱私安全。
接下來我們針對(duì)聯(lián)邦學(xué)習(xí),進(jìn)行系統(tǒng)性的討論,包括起源,雛形,發(fā)展,應(yīng)用等。
3. 聯(lián)邦學(xué)習(xí)的拓展
分布式機(jī)器學(xué)習(xí)
嚴(yán)格意義上說,聯(lián)邦學(xué)習(xí)其實(shí)并不是一個(gè)全新的概念,而是基于分布式機(jī)器學(xué)習(xí)發(fā)展而來。分布式機(jī)器學(xué)習(xí),又叫Distributed MachineLearning,是大數(shù)據(jù)背景下的產(chǎn)物,也是當(dāng)前機(jī)器學(xué)習(xí)最熱門的研究領(lǐng)域之一。
在大數(shù)據(jù)時(shí)代,數(shù)據(jù)發(fā)生爆炸式增長(zhǎng),大數(shù)據(jù)具有五大特征:大數(shù)據(jù)量(Volume)、多類型(VarieG ty)、低價(jià)值密度(Value)、高時(shí)效(Velocity)和數(shù)據(jù)在線(OnG line),大規(guī)模訓(xùn)練數(shù)據(jù)的產(chǎn)生為模型的訓(xùn)練提供了必要條件,同時(shí)也帶來訓(xùn)練的挑戰(zhàn)。
傳統(tǒng)的機(jī)器學(xué)習(xí)注重在單機(jī)中處理數(shù)據(jù)的速度,但龐大的數(shù)據(jù)存儲(chǔ)和計(jì)算僅在單機(jī)上是遠(yuǎn)遠(yuǎn)做不到的,而且硬件支持的有限性使得在單機(jī)上做大數(shù)據(jù)處理時(shí)顯得十分吃力,例如: 數(shù)量大、計(jì)算復(fù)雜度高,單機(jī)訓(xùn)練時(shí)長(zhǎng)遠(yuǎn)超過可接受的范圍,不實(shí)用;存儲(chǔ)容量和內(nèi)存需求增加,單機(jī)無法滿足需求,難以落地。
將模型計(jì)算分布式地部署到多臺(tái)、多類型機(jī)器上進(jìn)行同時(shí)計(jì)算,成為必要的解決方式。正如我們上面提到的,將模型計(jì)算分布式地部署到多臺(tái)、多類型機(jī)器上進(jìn)行同時(shí)計(jì)算是解決大數(shù)據(jù)運(yùn)算的必須條件。
圖片引用自:《分布式機(jī)器學(xué)習(xí):算法、理論與實(shí)踐》
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
最新活動(dòng)更多
-
12月19日立即報(bào)名>> 【線下會(huì)議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
-
精彩回顧立即查看>> 2024中國(guó)國(guó)際工業(yè)博覽會(huì)維科網(wǎng)·激光VIP企業(yè)展臺(tái)直播
-
精彩回顧立即查看>> 【產(chǎn)品試用】RSE30/60在線紅外熱像儀免費(fèi)試用
-
精彩回顧立即查看>> 2024(第五屆)全球數(shù)字經(jīng)濟(jì)產(chǎn)業(yè)大會(huì)暨展覽會(huì)
-
精彩回顧立即查看>> 【線下會(huì)議】全數(shù)會(huì)2024電子元器件展覽會(huì)
-
精彩回顧立即查看>> 三菱電機(jī)紅外傳感器的特性以及相關(guān)應(yīng)用領(lǐng)域
編輯推薦
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市