人工智能之決策樹(DT)
決策樹停止分支方法:
剪枝是決策樹停止分支的方法之一,剪枝有分預(yù)先剪枝和后剪枝兩種。
1)預(yù)先剪枝(Public算法)是在樹的生長(zhǎng)過程中設(shè)定一個(gè)指標(biāo),當(dāng)達(dá)到該指標(biāo)時(shí)就停止生長(zhǎng),容易產(chǎn)生“視界局限”,即一旦停止分支,使得節(jié)點(diǎn)N成為葉節(jié)點(diǎn),就斷絕了其后繼節(jié)點(diǎn)進(jìn)行“好”的分支操作的任何可能性。會(huì)誤導(dǎo)學(xué)習(xí)算法,導(dǎo)致產(chǎn)生的樹不純度降差最大的地方過分靠近根節(jié)點(diǎn)。
2)后剪枝(Sprint算法)中樹首先要充分生長(zhǎng),直到葉節(jié)點(diǎn)都有最小的不純度值為止,因而可以克服“視界局限”。然后對(duì)所有相鄰的成對(duì)葉節(jié)點(diǎn)考慮是否消去它們,如果消去能引起令人滿意的不純度增長(zhǎng),那么執(zhí)行消去,并令它們的公共父節(jié)點(diǎn)成為新的葉節(jié)點(diǎn)。這種“合并”葉節(jié)點(diǎn)的做法和節(jié)點(diǎn)分支的過程恰好相反,經(jīng)過剪枝后葉節(jié)點(diǎn)常常會(huì)分布在很寬的層次上,樹也變得非平衡。后剪枝技術(shù)的優(yōu)點(diǎn)是克服了“視界局限”效應(yīng),且無需保留部分樣本用于交叉驗(yàn)證,所以可以充分利用全部訓(xùn)練集的信息。但后剪枝的計(jì)算量代價(jià)比預(yù)剪枝方法大得多,特別是在大樣本集中,不過對(duì)于小樣本的情況,后剪枝方法還是優(yōu)于預(yù)剪枝方法的。
決策樹與條件概率:
決策樹模型呈樹形結(jié)構(gòu),在分類問題中,表示基于特征對(duì)實(shí)例進(jìn)行分類的過程。它可以認(rèn)為是if-then規(guī)則的集合,也可以認(rèn)為是定義在特征空間與類空間上的條件概率分布,即決策樹可以依靠計(jì)算條件概率來構(gòu)造。決策樹如果依靠數(shù)學(xué)的計(jì)算方法可以取得更加理想的效果。數(shù)據(jù)庫(kù)已如下所示:
(x, y) = (x1, x2, x3…, xk, y)
相關(guān)的變量 Y 表示嘗試去理解,分類或者更一般化的結(jié)果。其他的變量x1, x2, x3 等則是幫助達(dá)到目的的變量。
決策樹常見算法:
決策樹的常見的算法包括:1)分類及回歸樹(Classification And Regression Tree, CART),2)ID3(IterativeDichotomiser 3),3)C4.5,4)Chi-squared Automatic Interaction Detection(CHAID), 5)Decision Stump, 6)隨機(jī)森林(Random Forest),7)多元自適應(yīng)回歸樣條(MARS),8)梯度推進(jìn)機(jī)(Gradient Boosting Machine,GBM)等等。
其中,隨機(jī)森林(RandomForest)是作為新興起的、高度靈活的一種決策樹算法。它是用訓(xùn)練數(shù)據(jù)隨機(jī)的計(jì)算出許多決策樹,形成了一個(gè)森林。然后用這個(gè)森林對(duì)未知數(shù)據(jù)進(jìn)行預(yù)測(cè),選取投票最多的分類。此算法的錯(cuò)誤率得到了經(jīng)一步的降低。這種方法背后的原理可以用“三個(gè)臭皮匠定一個(gè)諸葛亮”這句諺語來概括。一顆樹預(yù)測(cè)正確的概率可能不高,但是集體預(yù)測(cè)正確的概率卻很高。
決策樹優(yōu)點(diǎn):
1)易于理解和實(shí)現(xiàn):在學(xué)習(xí)過程中不需要使用者了解很多的背景知識(shí),只要通過解釋后都有能力去理解決策樹所表達(dá)的意義;
2)效率高、效果好:對(duì)于決策樹,數(shù)據(jù)的準(zhǔn)備往往是簡(jiǎn)單或者是不必要的,而且能夠同時(shí)處理數(shù)據(jù)型和常規(guī)型屬性,在相對(duì)短的時(shí)間內(nèi)能夠?qū)Υ笮蛿?shù)據(jù)源做出可行且效果良好的結(jié)果;
3)易于評(píng)測(cè)和生成:易于通過靜態(tài)測(cè)試來對(duì)模型進(jìn)行評(píng)測(cè),可以測(cè)定模型可信度;如果給定一個(gè)觀察的模型,那么根據(jù)所產(chǎn)生的決策樹很容易推出相應(yīng)的邏輯表達(dá)式。
決策樹缺點(diǎn):
1)對(duì)連續(xù)性的字段比較難預(yù)測(cè);
2)對(duì)有時(shí)間順序的數(shù)據(jù),需要很多預(yù)處理的工作;
3)當(dāng)類別太多時(shí),錯(cuò)誤可能就會(huì)增加的比較快;
4)一般的算法分類的時(shí)候,只是根據(jù)一個(gè)字段來分類。
決策樹應(yīng)用前景:
決策樹具有條理清晰,程序嚴(yán)謹(jǐn),定量、定性分析相結(jié)合,方法簡(jiǎn)單,易于掌握,應(yīng)用性強(qiáng),適用范圍廣等優(yōu)點(diǎn)。人們逐漸認(rèn)識(shí)到,在投資方案比較選擇時(shí)考慮時(shí)間因素,建立時(shí)間可比原則和條件的重要性。當(dāng)今的社會(huì)經(jīng)濟(jì)活動(dòng)中,競(jìng)爭(zhēng)日趨激烈,現(xiàn)代企業(yè)的經(jīng)營(yíng)方向面臨著許多可供選擇的方案,如何用最少的資源,贏得最大的利潤(rùn)以及最大限度地降低企業(yè)的經(jīng)營(yíng)風(fēng)險(xiǎn),是企業(yè)決策者經(jīng)常面對(duì)的決策問題,決策樹法能簡(jiǎn)單明了地幫助企業(yè)決策層分析企業(yè)的經(jīng)營(yíng)風(fēng)險(xiǎn)和經(jīng)營(yíng)方向。必然地,隨著經(jīng)濟(jì)的不斷發(fā)展,企業(yè)需要做出決策的數(shù)量會(huì)不斷地增加,而決策質(zhì)量的提高取決于決策方法的科學(xué)化。企業(yè)的決策水平提高了,企業(yè)的管理水平就一定會(huì)提高。
結(jié)語:
決策樹采用的是一種簡(jiǎn)單且直觀的“分而治之”(divide-and-conquer)策略。決策樹的核心是通過對(duì)數(shù)據(jù)的學(xué)習(xí),選定判斷節(jié)點(diǎn),構(gòu)造一顆合適的決策樹。決策樹是一個(gè)有監(jiān)督的分類模型,其本質(zhì)是選擇一個(gè)能帶來最大信息增益的特征值進(jìn)行樹的分割,直到到達(dá)結(jié)束條件或者葉子結(jié)點(diǎn)純度到達(dá)一定閾值。決策樹是人工智能之機(jī)器學(xué)習(xí)中比較常見的算法,相比樸素貝葉斯分類,決策樹優(yōu)勢(shì)在于構(gòu)造過程不需要任何領(lǐng)域知識(shí)或參數(shù)設(shè)置,因此在實(shí)際應(yīng)用中,對(duì)于探測(cè)式的知識(shí)發(fā)現(xiàn),決策樹更加適用,其應(yīng)用超級(jí)廣泛。
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
即日-11.13立即報(bào)名>>> 【在線會(huì)議】多物理場(chǎng)仿真助跑新能源汽車
-
11月28日立即報(bào)名>>> 2024工程師系列—工業(yè)電子技術(shù)在線會(huì)議
-
12月19日立即報(bào)名>> 【線下會(huì)議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
-
即日-12.26火熱報(bào)名中>> OFweek2024中國(guó)智造CIO在線峰會(huì)
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書》
-
精彩回顧立即查看>> 【限時(shí)免費(fèi)下載】TE暖通空調(diào)系統(tǒng)高效可靠的組件解決方案
推薦專題
- 1 【一周車話】沒有方向盤和踏板的車,你敢坐嗎?
- 2 特斯拉發(fā)布無人駕駛車,還未迎來“Chatgpt時(shí)刻”
- 3 特斯拉股價(jià)大跌15%:Robotaxi離落地還差一個(gè)蘿卜快跑
- 4 馬斯克給的“驚喜”夠嗎?
- 5 打完“價(jià)格戰(zhàn)”,大模型還要比什么?
- 6 馬斯克致敬“國(guó)產(chǎn)蘿卜”?
- 7 神經(jīng)網(wǎng)絡(luò),誰是盈利最強(qiáng)企業(yè)?
- 8 比蘋果偉大100倍!真正改寫人類歷史的智能產(chǎn)品降臨
- 9 諾獎(jiǎng)進(jìn)入“AI時(shí)代”,人類何去何從?
- 10 Open AI融資后成萬億獨(dú)角獸,AI人才之爭(zhēng)開啟
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市