Spark調(diào)優(yōu)之RDD算子調(diào)優(yōu)(面試常問(wèn),建議收藏)
5. filter+coalesce/repartition(減少分區(qū))
在Spark任務(wù)中我們經(jīng)常會(huì)使用filter算子完成RDD中數(shù)據(jù)的過(guò)濾,在任務(wù)初始階段,從各個(gè)分區(qū)中加載到的數(shù)據(jù)量是相近的,但是一旦進(jìn)過(guò)filter過(guò)濾后,每個(gè)分區(qū)的數(shù)據(jù)量有可能會(huì)存在較大差異,如下圖所示:
分區(qū)數(shù)據(jù)過(guò)濾結(jié)果
根據(jù)上圖我們可以發(fā)現(xiàn)兩個(gè)問(wèn)題:
每個(gè)partition的數(shù)據(jù)量變小了,如果還按照之前與partition相等的task個(gè)數(shù)去處理當(dāng)前數(shù)據(jù),有點(diǎn)浪費(fèi)task的計(jì)算資源;
每個(gè)partition的數(shù)據(jù)量不一樣,會(huì)導(dǎo)致后面的每個(gè)task處理每個(gè)partition數(shù)據(jù)的時(shí)候,每個(gè)task要處理的數(shù)據(jù)量不同,這很有可能導(dǎo)致數(shù)據(jù)傾斜問(wèn)題。
如上圖所示,第二個(gè)分區(qū)的數(shù)據(jù)過(guò)濾后只剩100條,而第三個(gè)分區(qū)的數(shù)據(jù)過(guò)濾后剩下800條,在相同的處理邏輯下,第二個(gè)分區(qū)對(duì)應(yīng)的task處理的數(shù)據(jù)量與第三個(gè)分區(qū)對(duì)應(yīng)的task處理的數(shù)據(jù)量差距達(dá)到了8倍,這也會(huì)導(dǎo)致運(yùn)行速度可能存在數(shù)倍的差距,這也就是數(shù)據(jù)傾斜問(wèn)題。
針對(duì)上述的兩個(gè)問(wèn)題,我們分別進(jìn)行分析:
針對(duì)第一個(gè)問(wèn)題,既然分區(qū)的數(shù)據(jù)量變小了,我們希望可以對(duì)分區(qū)數(shù)據(jù)進(jìn)行重新分配,比如將原來(lái)4個(gè)分區(qū)的數(shù)據(jù)轉(zhuǎn)化到2個(gè)分區(qū)中,這樣只需要用后面的兩個(gè)task進(jìn)行處理即可,避免了資源的浪費(fèi)。
針對(duì)第二個(gè)問(wèn)題,解決方法和第一個(gè)問(wèn)題的解決方法非常相似,對(duì)分區(qū)數(shù)據(jù)重新分配,讓每個(gè)partition中的數(shù)據(jù)量差不多,這就避免了數(shù)據(jù)傾斜問(wèn)題。
那么具體應(yīng)該如何實(shí)現(xiàn)上面的解決思路?我們需要coalesce算子。
repartition與coalesce都可以用來(lái)進(jìn)行重分區(qū),其中repartition只是coalesce接口中shuffle為true的簡(jiǎn)易實(shí)現(xiàn),coalesce默認(rèn)情況下不進(jìn)行shuffle,但是可以通過(guò)參數(shù)進(jìn)行設(shè)置。
假設(shè)我們希望將原本的分區(qū)個(gè)數(shù)A通過(guò)重新分區(qū)變?yōu)锽,那么有以下幾種情況:
A > B(多數(shù)分區(qū)合并為少數(shù)分區(qū))
A與B相差值不大
此時(shí)使用coalesce即可,無(wú)需shuffle過(guò)程。
A與B相差值很大
此時(shí)可以使用coalesce并且不啟用shuffle過(guò)程,但是會(huì)導(dǎo)致合并過(guò)程性能低下,所以推薦設(shè)置coalesce的第二個(gè)參數(shù)為true,即啟動(dòng)shuffle過(guò)程。
A < B(少數(shù)分區(qū)分解為多數(shù)分區(qū))
此時(shí)使用repartition即可,如果使用coalesce需要將shuffle設(shè)置為true,否則coalesce無(wú)效。
我們可以在filter操作之后,使用coalesce算子針對(duì)每個(gè)partition的數(shù)據(jù)量各不相同的情況,壓縮partition的數(shù)量,而且讓每個(gè)partition的數(shù)據(jù)量盡量均勻緊湊,以便于后面的task進(jìn)行計(jì)算操作,在某種程度上能夠在一定程度上提升性能。
注意:local模式是進(jìn)程內(nèi)模擬集群運(yùn)行,已經(jīng)對(duì)并行度和分區(qū)數(shù)量有了一定的內(nèi)部?jī)?yōu)化,因此不用去設(shè)置并行度和分區(qū)數(shù)量。
6. 并行度設(shè)置
Spark作業(yè)中的并行度指各個(gè)stage的task的數(shù)量。
如果并行度設(shè)置不合理而導(dǎo)致并行度過(guò)低,會(huì)導(dǎo)致資源的極大浪費(fèi),例如,20個(gè)Executor,每個(gè)Executor分配3個(gè)CPU core,而Spark作業(yè)有40個(gè)task,這樣每個(gè)Executor分配到的task個(gè)數(shù)是2個(gè),這就使得每個(gè)Executor有一個(gè)CPU core空閑,導(dǎo)致資源的浪費(fèi)。
理想的并行度設(shè)置,應(yīng)該是讓并行度與資源相匹配,簡(jiǎn)單來(lái)說(shuō)就是在資源允許的前提下,并行度要設(shè)置的盡可能大,達(dá)到可以充分利用集群資源。合理的設(shè)置并行度,可以提升整個(gè)Spark作業(yè)的性能和運(yùn)行速度。
Spark官方推薦,task數(shù)量應(yīng)該設(shè)置為Spark作業(yè)總CPU core數(shù)量的2~3倍。之所以沒(méi)有推薦task數(shù)量與CPU core總數(shù)相等,是因?yàn)閠ask的執(zhí)行時(shí)間不同,有的task執(zhí)行速度快而有的task執(zhí)行速度慢,如果task數(shù)量與CPU core總數(shù)相等,那么執(zhí)行快的task執(zhí)行完成后,會(huì)出現(xiàn)CPU core空閑的情況。如果task數(shù)量設(shè)置為CPU core總數(shù)的2~3倍,那么一個(gè)task執(zhí)行完畢后,CPU core會(huì)立刻執(zhí)行下一個(gè)task,降低了資源的浪費(fèi),同時(shí)提升了Spark作業(yè)運(yùn)行的效率。
Spark作業(yè)并行度的設(shè)置如下:
val conf = new SparkConf().set("spark.default.parallelism", "500")
原則:讓 cpu 的 core(cpu 核心數(shù)) 充分利用起來(lái), 如有100個(gè) core,那么并行度可以設(shè)置為200~300。
7. repartition/coalesce調(diào)節(jié)并行度
Spark 中雖然可以設(shè)置并行度的調(diào)節(jié)策略,但是,并行度的設(shè)置對(duì)于Spark SQL是不生效的,用戶設(shè)置的并行度只對(duì)于Spark SQL以外的所有Spark的stage生效。
Spark SQL的并行度不允許用戶自己指定,Spark SQL自己會(huì)默認(rèn)根據(jù)hive表對(duì)應(yīng)的HDFS文件的split個(gè)數(shù)自動(dòng)設(shè)置Spark SQL所在的那個(gè)stage的并行度,用戶自己通 spark.default.parallelism 參數(shù)指定的并行度,只會(huì)在沒(méi)Spark SQL的stage中生效。
由于Spark SQL所在stage的并行度無(wú)法手動(dòng)設(shè)置,如果數(shù)據(jù)量較大,并且此stage中后續(xù)的transformation操作有著復(fù)雜的業(yè)務(wù)邏輯,而Spark SQL自動(dòng)設(shè)置的task數(shù)量很少,這就意味著每個(gè)task要處理為數(shù)不少的數(shù)據(jù)量,然后還要執(zhí)行非常復(fù)雜的處理邏輯,這就可能表現(xiàn)為第一個(gè)有Spark SQL的stage速度很慢,而后續(xù)的沒(méi)有Spark SQL的stage運(yùn)行速度非?臁
為了解決Spark SQL無(wú)法設(shè)置并行度和task數(shù)量的問(wèn)題,我們可以使用repartition算子。
repartition 算子使用前后對(duì)比圖如下:
repartition 算子使用前后對(duì)比圖
Spark SQL這一步的并行度和task數(shù)量肯定是沒(méi)有辦法去改變了,但是,對(duì)于Spark SQL查詢出來(lái)的RDD,立即使用repartition算子,去重新進(jìn)行分區(qū),這樣可以重新分區(qū)為多個(gè)partition,從repartition之后的RDD操作,由于不再涉及Spark SQL,因此stage的并行度就會(huì)等于你手動(dòng)設(shè)置的值,這樣就避免了Spark SQL所在的stage只能用少量的task去處理大量數(shù)據(jù)并執(zhí)行復(fù)雜的算法邏輯。使用repartition算子的前后對(duì)比如上圖所示。
8. reduceByKey本地預(yù)聚合
reduceByKey相較于普通的shuffle操作一個(gè)顯著的特點(diǎn)就是會(huì)進(jìn)行map端的本地聚合,map端會(huì)先對(duì)本地的數(shù)據(jù)進(jìn)行combine操作,然后將數(shù)據(jù)寫入給下個(gè)stage的每個(gè)task創(chuàng)建的文件中,也就是在map端,對(duì)每一個(gè)key對(duì)應(yīng)的value,執(zhí)行reduceByKey算子函數(shù)。
reduceByKey算子的執(zhí)行過(guò)程如下圖所示:
reduceByKey 算子執(zhí)行過(guò)程
使用reduceByKey對(duì)性能的提升如下:
本地聚合后,在map端的數(shù)據(jù)量變少,減少了磁盤IO,也減少了對(duì)磁盤空間的占用;
本地聚合后,下一個(gè)stage拉取的數(shù)據(jù)量變少,減少了網(wǎng)絡(luò)傳輸?shù)臄?shù)據(jù)量;
本地聚合后,在reduce端進(jìn)行數(shù)據(jù)緩存的內(nèi)存占用減少;
本地聚合后,在reduce端進(jìn)行聚合的數(shù)據(jù)量減少。
基于reduceByKey的本地聚合特征,我們應(yīng)該考慮使用reduceByKey代替其他的shuffle算子,例如groupByKey。
groupByKey與reduceByKey的運(yùn)行原理如下圖1和圖2所示:
圖1:groupByKey原理
圖2:reduceByKey原理
根據(jù)上圖可知,groupByKey不會(huì)進(jìn)行map端的聚合,而是將所有map端的數(shù)據(jù)shuffle到reduce端,然后在reduce端進(jìn)行數(shù)據(jù)的聚合操作。由于reduceByKey有map端聚合的特性,使得網(wǎng)絡(luò)傳輸?shù)臄?shù)據(jù)量減小,因此效率要明顯高于groupByKey。
9. 使用持久化+checkpoint
Spark持久化在大部分情況下是沒(méi)有問(wèn)題的,但是有時(shí)數(shù)據(jù)可能會(huì)丟失,如果數(shù)據(jù)一旦丟失,就需要對(duì)丟失的數(shù)據(jù)重新進(jìn)行計(jì)算,計(jì)算完后再緩存和使用,為了避免數(shù)據(jù)的丟失,可以選擇對(duì)這個(gè)RDD進(jìn)行checkpoint,也就是將數(shù)據(jù)持久化一份到容錯(cuò)的文件系統(tǒng)上(比如HDFS)。
一個(gè)RDD緩存并checkpoint后,如果一旦發(fā)現(xiàn)緩存丟失,就會(huì)優(yōu)先查看checkpoint數(shù)據(jù)存不存在,如果有,就會(huì)使用checkpoint數(shù)據(jù),而不用重新計(jì)算。也即是說(shuō),checkpoint可以視為cache的保障機(jī)制,如果cache失敗,就使用checkpoint的數(shù)據(jù)。
使用checkpoint的優(yōu)點(diǎn)在于提高了Spark作業(yè)的可靠性,一旦緩存出現(xiàn)問(wèn)題,不需要重新計(jì)算數(shù)據(jù),缺點(diǎn)在于,checkpoint時(shí)需要將數(shù)據(jù)寫入HDFS等文件系統(tǒng),對(duì)性能的消耗較大。
持久化設(shè)置如下:
sc.setCheckpointDir(‘HDFS’)
rdd.cache/persist(memory_and_disk)
rdd.checkpoint
10. 使用廣播變量
默認(rèn)情況下,task中的算子中如果使用了外部的變量,每個(gè)task都會(huì)獲取一份變量的復(fù)本,這就造成了內(nèi)存的極大消耗。一方面,如果后續(xù)對(duì)RDD進(jìn)行持久化,可能就無(wú)法將RDD數(shù)據(jù)存入內(nèi)存,只能寫入磁盤,磁盤IO將會(huì)嚴(yán)重消耗性能;另一方面,task在創(chuàng)建對(duì)象的時(shí)候,也許會(huì)發(fā)現(xiàn)堆內(nèi)存無(wú)法存放新創(chuàng)建的對(duì)象,這就會(huì)導(dǎo)致頻繁的GC,GC會(huì)導(dǎo)致工作線程停止,進(jìn)而導(dǎo)致Spark暫停工作一段時(shí)間,嚴(yán)重影響Spark性能。
假設(shè)當(dāng)前任務(wù)配置了20個(gè)Executor,指定500個(gè)task,有一個(gè)20M的變量被所有task共用,此時(shí)會(huì)在500個(gè)task中產(chǎn)生500個(gè)副本,耗費(fèi)集群10G的內(nèi)存,如果使用了廣播變量, 那么每個(gè)Executor保存一個(gè)副本,一共消耗400M內(nèi)存,內(nèi)存消耗減少了5倍。
廣播變量在每個(gè)Executor保存一個(gè)副本,此Executor的所有task共用此廣播變量,這讓變量產(chǎn)生的副本數(shù)量大大減少。
在初始階段,廣播變量只在Driver中有一份副本。task在運(yùn)行的時(shí)候,想要使用廣播變量中的數(shù)據(jù),此時(shí)首先會(huì)在自己本地的Executor對(duì)應(yīng)的BlockManager中嘗試獲取變量,如果本地沒(méi)有,BlockManager就會(huì)從Driver或者其他節(jié)點(diǎn)的BlockManager上遠(yuǎn)程拉取變量的復(fù)本,并由本地的BlockManager進(jìn)行管理;之后此Executor的所有task都會(huì)直接從本地的BlockManager中獲取變量。
對(duì)于多個(gè)Task可能會(huì)共用的數(shù)據(jù)可以廣播到每個(gè)Executor上:
val 廣播變量名= sc.broadcast(會(huì)被各個(gè)Task用到的變量,即需要廣播的變量)
廣播變量名.value//獲取廣播變量
11. 使用Kryo序列化
默認(rèn)情況下,Spark使用Java的序列化機(jī)制。Java的序列化機(jī)制使用方便,不需要額外的配置,在算子中使用的變量實(shí)現(xiàn)Serializable接口即可,但是,Java序列化機(jī)制的效率不高,序列化速度慢并且序列化后的數(shù)據(jù)所占用的空間依然較大。
Spark官方宣稱Kryo序列化機(jī)制比Java序列化機(jī)制性能提高10倍左右,Spark之所以沒(méi)有默認(rèn)使用Kryo作為序列化類庫(kù),是因?yàn)樗恢С炙袑?duì)象的序列化,同時(shí)Kryo需要用戶在使用前注冊(cè)需要序列化的類型,不夠方便,但從Spark 2.0.0版本開(kāi)始,簡(jiǎn)單類型、簡(jiǎn)單類型數(shù)組、字符串類型的Shuffling RDDs 已經(jīng)默認(rèn)使用Kryo序列化方式了。
Kryo序列化注冊(cè)方式的代碼如下:
public class MyKryoRegistrator implements KryoRegistrator{
@Override
public void registerClasses(Kryo kryo){
kryo.register(StartupReportLogs.class);
}
}
配置Kryo序列化方式的代碼如下:
//創(chuàng)建SparkConf對(duì)象
val conf = new SparkConf().setMaster(…).setAppName(…)
//使用Kryo序列化庫(kù)
conf.set("spark.serializer", "org.a(chǎn)pache.spark.serializer.KryoSerializer");
//在Kryo序列化庫(kù)中注冊(cè)自定義的類集合
conf.set("spark.kryo.registrator", "bigdata.com.MyKryoRegistrator");
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
即日-11.13立即報(bào)名>>> 【在線會(huì)議】多物理場(chǎng)仿真助跑新能源汽車
-
11月20日火熱報(bào)名中>> 2024 智能家居出海論壇
-
11月28日立即報(bào)名>>> 2024工程師系列—工業(yè)電子技術(shù)在線會(huì)議
-
12月19日立即報(bào)名>> 【線下會(huì)議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
-
即日-12.26火熱報(bào)名中>> OFweek2024中國(guó)智造CIO在線峰會(huì)
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書》
推薦專題
- 1 【一周車話】沒(méi)有方向盤和踏板的車,你敢坐嗎?
- 2 特斯拉發(fā)布無(wú)人駕駛車,還未迎來(lái)“Chatgpt時(shí)刻”
- 3 特斯拉股價(jià)大跌15%:Robotaxi離落地還差一個(gè)蘿卜快跑
- 4 馬斯克給的“驚喜”夠嗎?
- 5 打完“價(jià)格戰(zhàn)”,大模型還要比什么?
- 6 馬斯克致敬“國(guó)產(chǎn)蘿卜”?
- 7 神經(jīng)網(wǎng)絡(luò),誰(shuí)是盈利最強(qiáng)企業(yè)?
- 8 比蘋果偉大100倍!真正改寫人類歷史的智能產(chǎn)品降臨
- 9 諾獎(jiǎng)進(jìn)入“AI時(shí)代”,人類何去何從?
- 10 Open AI融資后成萬(wàn)億獨(dú)角獸,AI人才之爭(zhēng)開(kāi)啟
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市