訂閱
糾錯
加入自媒體

人工智能之隨機(jī)森林(RF)

影響性能因素

1)森林中的每個樹越茂盛,分類效果就越好。

2)樹和樹的枝葉穿插越多,分類效果就越差。

人工智能之隨機(jī)森林(RF)

隨機(jī)森林的隨機(jī)選取:

1)數(shù)據(jù)的隨機(jī)選取:從原始的數(shù)據(jù)集中采取有放回的抽樣,構(gòu)造子數(shù)據(jù)集。相同或不同子數(shù)據(jù)集的元素都可以重復(fù)。利用子數(shù)據(jù)集構(gòu)建子決策樹,將這個數(shù)據(jù)放到每個子決策樹中,每個子決策樹輸出一個結(jié)果。新的數(shù)據(jù)需要通過隨機(jī)森林得到分類結(jié)果,通過對子決策樹的判斷結(jié)果的投票,得到隨機(jī)森林的輸出結(jié)果。

2)待選特征的隨機(jī)選取:隨機(jī)森林中子樹的每一個分裂過程沒有用到所有的待選特征,僅從所有的待選特征中隨機(jī)選取一定的特征,再在隨機(jī)選取的特征中選取最優(yōu)特征。這樣能使得隨機(jī)森林中的決策樹都能夠彼此不同,提升系統(tǒng)的多樣性,從而提升分類性能。

隨機(jī)森林優(yōu)點:

1)具有極高的準(zhǔn)確率;

2)可以處理大量的輸入變數(shù),并可以評估變數(shù)的重要性;

3)隨機(jī)性的引入,使得隨機(jī)森林不容易過擬合;

4)隨機(jī)性的引入,使得隨機(jī)森林有很好的抗噪聲能力;

5)能處理很高維度的數(shù)據(jù),并且不用做特征選擇;

6)在創(chuàng)建隨機(jī)森林的時候,對generlizationerror使用的是無偏估計;

7)既能處理離散型數(shù)據(jù),也能處理連續(xù)型數(shù)據(jù),數(shù)據(jù)集無需規(guī)范化;

8)對于不平衡的分類資料集來說,可以平衡誤差;

9)訓(xùn)練速度快,可以得到變量重要性排序;

10)容易實現(xiàn)并行化

人工智能之隨機(jī)森林(RF)

隨機(jī)森林缺點:

1)當(dāng)隨機(jī)森林中的決策樹個數(shù)很多時,訓(xùn)練時需要的空間和時間會較大;

2)隨機(jī)森林在解決回歸問題時并沒有像它在分類中表現(xiàn)的那么好,不能夠作出超越訓(xùn)練集數(shù)據(jù)范圍的預(yù)測,這可能導(dǎo)致在對某些還有特定噪聲的數(shù)據(jù)進(jìn)行建模時出現(xiàn)過度擬合;

3)隨機(jī)森林模型還有許多不好解釋的地方,有點算是黑盒模型;

人工智能之隨機(jī)森林(RF)

隨機(jī)森林應(yīng)用前景:

隨機(jī)森林具有準(zhǔn)確度高、抗噪聲能力強(qiáng)、不容易過擬合、數(shù)據(jù)集無需規(guī)范化、平衡誤差、訓(xùn)練速度快、易實現(xiàn)并行化、應(yīng)用性強(qiáng)、適用范圍廣等優(yōu)點。近年來,隨機(jī)森林模型在界內(nèi)的關(guān)注度與受歡迎程度有著顯著的提升。它可以快速地被應(yīng)用到幾乎任何的數(shù)據(jù)科學(xué)問題中去,從而使人們能夠高效快捷地獲得第一組基準(zhǔn)測試結(jié)果。在各種各樣的問題中,隨機(jī)森林一次又一次地展示出令人難以置信的強(qiáng)大,而與此同時它又是如此的方便實用。隨機(jī)森林算法可被用于很多不同領(lǐng)域,如銀行,股票市場,醫(yī)藥和電子商務(wù)。在銀行領(lǐng)域,用來檢測那些比普通人更高頻率使用銀行服務(wù)的客戶,并及時償還他們的債務(wù)。也會被用來檢測那些想詐騙銀行的客戶。在金融領(lǐng)域,可用于預(yù)測未來股票的趨勢。在醫(yī)療保健領(lǐng)域,可用于識別藥品成分的正確組合,分析患者的病史以識別疾病。在電子商務(wù)領(lǐng)域中,隨機(jī)森林可以被用來確定客戶是否真的喜歡某個產(chǎn)品。

人工智能之隨機(jī)森林(RF)

結(jié)語:

隨機(jī)森林是一種多功能的機(jī)器學(xué)習(xí)算法,能夠執(zhí)行回歸和分類的任務(wù)。隨機(jī)森林用隨機(jī)的方式建立一個森林,森林里面有很多的決策樹組成,可以將幾個低效模型(決策樹)整合為一個高效模型(隨機(jī)森林)。它主要解決了決策樹泛化能力弱的缺點。同時,隨機(jī)森林也實現(xiàn)了數(shù)據(jù)降維,是處理缺失值、異常值或其他數(shù)據(jù)的重要手段,并取得了不錯成效。隨機(jī)森林是人工智能之機(jī)器學(xué)習(xí)中最近比較火的算法,具有準(zhǔn)確度高、抗噪聲強(qiáng)、速度快、并行化、適用廣等優(yōu)點,在實際應(yīng)用中,隨機(jī)森林算法性能表現(xiàn)得非常強(qiáng)大和實用,因此在業(yè)界受到高度關(guān)注和歡迎,其應(yīng)用前景非常廣泛和深遠(yuǎn)

<上一頁  1  2  
聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯
x
*文字標(biāo)題:
*糾錯內(nèi)容:
聯(lián)系郵箱:
*驗 證 碼:

粵公網(wǎng)安備 44030502002758號