人工智能之樸素貝葉斯(NB)
樸素貝葉斯基本框架,c類別,A特征
樸素貝葉斯分類器:
比較流行的樸素貝葉斯分類器有:
高斯樸素貝葉斯(Gaussian naive Bayes):適用于多個類型變量,假設特征符合高斯分布。
多項式樸素貝葉斯(Multinomial naive Bayes):用于離散計數,如一個句子中某個詞語重復出現(xiàn),我們視它們每個都是獨立的,所以統(tǒng)計多次,概率指數上出現(xiàn)了次方。
伯努利樸素貝葉斯(Bernoulli naive Bayes):如果特征向量是二進制(即0和1),那這個模型是非常有用的。不同于多項式,伯努利把出現(xiàn)多次的詞語視為只出現(xiàn)一次,更加簡單方便。
可以根據特定數據集選取上述3個分類器中的合適者。
算法優(yōu)點:
1)既簡單又快速,預測表現(xiàn)良好。
2)如果變量獨立這個條件成立,相比Logistic回歸等其他分類方法,樸素貝葉斯分類器性能更優(yōu),且只需少量訓練數據。
3)相較于數值變量,樸素貝葉斯分類器在多個分類變量的情況下表現(xiàn)更好。若是數值變量,需要正態(tài)分布假設。
4)對缺失數據不太敏感,算法也比較簡單。
算法缺點:
1) 如果分類變量的類別(測試數據集)沒有在訓練數據集總被觀察到,那這個模型會分配一個0概率給它,同時也會無法進行預測。這通常被稱為“零頻率”。為了解決這個問題,可以使用平滑技術,拉普拉斯估計是其中最基礎的技術。
2) 樸素貝葉斯也被稱為bad estimator,所以它的概率輸出predict_proba不應被太認真對待。
3) 刪除重復出現(xiàn)的高度相關的特征,可能會丟失頻率信息,影響效果。
4) 樸素貝葉斯的另一個限制是獨立預測的假設。在現(xiàn)實生活中,這幾乎是不可能的,各變量間或多或少都會存在相互影響。
主要應用:
1) 實時預測:運用樸素貝葉斯進行很快地實時預測。
2) 多類預測:這個算法以多類別預測功能聞名,因此可以用來預測多類目標變量的概率。
3) 文本分類/垃圾郵件過濾/情感分析:相比較其他算法,樸素貝葉斯的應用主要集中在文本分類(變量類型多,且更獨立),具有較高的成功率。因此被廣泛應用于垃圾郵件過濾(識別垃圾郵件)和情感分析(分辨積極情緒和消極情緒的用戶)。
4) 推薦系統(tǒng):樸素貝葉斯分類器和協(xié)同過濾結合使用可以過濾出用戶想看到的和不想看到的東西。
結語:
樸素貝葉斯模型與其他分類方法相比具有最小的誤差率。但是實際上并非總是如此,這是因為樸素貝葉斯模型假設屬性之間相互獨立,這個假設在實際應用中往往是不成立的,在屬性個數比較多或者屬性之間相關性較大時,分類效果不好。而在屬性相關性較小時,樸素貝葉斯性能最為良好。對于這一點,有半樸素貝葉斯之類的算法通過考慮部分關聯(lián)性適度改進。樸素貝葉斯在有些領域很有用,比如文本分類、垃圾郵件過濾、情感分析等;樸素貝葉斯原理和實現(xiàn)都比較簡單,學習和預測的效率都很高,是一種經典而常用的分類算法。在人工智能領域,樸素貝葉斯方法是一種十分有代表性的不確定性知識表示和推理方法。
請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
-
10月31日立即下載>> 【限時免費下載】TE暖通空調系統(tǒng)高效可靠的組件解決方案
-
即日-11.13立即報名>>> 【在線會議】多物理場仿真助跑新能源汽車
-
11月28日立即報名>>> 2024工程師系列—工業(yè)電子技術在線會議
-
12月19日立即報名>> 【線下會議】OFweek 2024(第九屆)物聯(lián)網產業(yè)大會
-
即日-12.26火熱報名中>> OFweek2024中國智造CIO在線峰會
-
即日-2025.8.1立即下載>> 《2024智能制造產業(yè)高端化、智能化、綠色化發(fā)展藍皮書》
推薦專題
- 高級軟件工程師 廣東省/深圳市
- 自動化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結構工程師 廣東省/深圳市