日韩无码二区,草莓视频黄网

基于樸素貝葉斯自動過濾垃圾廣告

2019-01-24 08:36

Python進(jìn)階學(xué)習(xí)交流

關(guān)注

貝葉斯定理

貝葉斯定理是關(guān)于事件A和事件B的條件概率。先認(rèn)識一下這幾個符號：

P（A｜B）：表示在事件B發(fā)生的情況下事件A發(fā)生的概率

P（B｜A）：表示在事件A發(fā)生的情況下事件B發(fā)生的概率

通常在已知P（A｜B）的情況下，計算P（B｜A）的值，此時P（A｜B）可以稱為先驗(yàn)概率，P（B｜A）稱為后驗(yàn)概率。

這個時候貝葉斯定理就登場啦：

通過這個定理我們就可以計算出P（B｜A）的值。舉個栗子：

一座別墅在過去的 20 年里一共發(fā)生過 2 次被盜，別墅的主人有一條狗，狗平均每周晚上叫 3 次，在盜賊入侵時狗叫的概率被估計為 0．9，在狗叫的時候發(fā)生入侵的概率是多少？

我們假設(shè) A 事件為狗在晚上叫，B 為盜賊入侵，則以天為單位統(tǒng)計，P（A）＝ 3／7，P（B）＝ 2／（20＊365）＝ 2／7300，P（A｜B）＝ 0．9，按照公式很容易得出結(jié)果：P（B｜A）＝ 0．9＊（2／7300）／（3／7）＝ 0．00058

貝葉斯定理延伸

其實(shí)到這里只是貝葉斯定理的簡單版，下面來看看它的一般版。一般事件B的發(fā)生不止有一個影響因素，比如事件B為早上是否吃早餐，那么事件A1可以為幾點(diǎn)起床，A2表示為早上是否有課，A3天氣是否寒冷，．．．An食堂早餐賣到幾點(diǎn)，這n個事件共同影響事件B是否吃早飯的發(fā)生，此時各事件的概率就發(fā)生了變化：

P（A）＝P（A1，A2，A3，．．．An）

P（A｜B）＝P（A1，A2，A3，．．．An｜B）

假設(shè)A1，A2，A3，．．．An都有兩種結(jié)果，那么一共有2＾n個結(jié)果，對應(yīng)需要的樣本數(shù)也是呈指數(shù)增加，這顯然是不合實(shí)際的，這時，就提出了半樸素貝葉斯和樸素貝葉斯。

這兩個定理都有樸素二字，這二字什么意思呢？白話一點(diǎn)就是簡化的意思，將A1，A2，A3，．．．An這n個事件的關(guān)聯(lián)切斷，假設(shè)它們是相互獨(dú)立的，即P（A）＝P（A1，A2，A3，．．．An）＝P（A1）P（A2）P（A3）．．．P（An）；

P（A｜B）＝P（A1，A2，A3，．．．An｜B）＝

P（A1｜B）P（A2｜B）P（A3｜B）．．．P（An｜B）

這么一樸素，整個過程簡單了不止一點(diǎn)點(diǎn)。但是事件A1可以為幾點(diǎn)起床和事件A2表示為早上是否有課真的一點(diǎn)關(guān)聯(lián)都沒有嗎？肯定是有關(guān)聯(lián)的，將相關(guān)性很高的一些事件提出，P（A）＝P（A1，A2，A3，．．．An）＝

P（A1）P（A2）P（A3）．．．P（An）P（A1A2）；既不忽略事件的相關(guān)性，又擁有樸素的特性，這就叫半樸素貝葉斯。

半樸素貝葉斯

樸素貝葉斯分類的正式定義如下：

1、設(shè)

為一個待分類項(xiàng)，而每個a為x的一個特征屬性。

2、有類別集合

3、計算

4、如果

則

基于屬性條件獨(dú)立性假設(shè)，現(xiàn)在來計算P（y1｜x），P（y2｜x），．．．P（yn｜x）。

對于所有類別來說P（x）是相同的，因此只需計算分子部分。

在實(shí)際計算時，為了避免下溢（小數(shù)點(diǎn)位數(shù)過高），一般會對等式兩邊同時進(jìn)行Ln變形，將＊變?yōu)椋�；這里ln為一個增函數(shù)，因此可以保證不改變P（yn｜x）的大小排序。

另一個需要注意的點(diǎn)是：樣本數(shù)是有限的，不可能包括所有的情形，這時會出現(xiàn)P（xn｜yi）＝0，但是這種情況不出現(xiàn)是不等價于不發(fā)生的，這是用到拉普拉斯修正進(jìn)行平滑：

P（xn｜yi）＝（N（結(jié)果yi發(fā)生的前提下xn發(fā)生的次數(shù)）＋1）／（結(jié)果yi發(fā)生的次數(shù)＋屬性xn所有可能的取值）

數(shù)據(jù)預(yù)處理

上圖是這次要用到的原始數(shù)據(jù)，一行代表一則廣告。ham代表有用的廣告，spam代表垃圾短信。預(yù)處理一共有三部：

第一步：將數(shù)據(jù)讀入進(jìn)來。

def read＿txt（）：
file ＝＇C：／Users／伊雅／Desktop／bayes．txt＇
with open（file， encoding＝＇utf－8＇） as f：
con ＝ f．readlines（）
return con

第二步：廣告存到dataset中，分類結(jié)果存儲到txt＿class中，得到一個詞匯表將dataset中的廣告用于split為一個一個的單詞，并將長度小于1的單詞去掉（a）

def create＿word＿list（con）：
reg ＝ re．compile（r＇W＊＇）
dataset ＝［］
wordlist ＝ set（［］）
txt＿class ＝［］
for i in con［1：］：
dataset．a(chǎn)ppend（re．split（reg， i）［1：］）
wordlist ＝ wordlist ｜ set（re．split（reg， i）［1：］）
if re．split（reg， i）［0］＝＝＇ham＇：＃有用的郵件
txt＿class．a(chǎn)ppend（1）
else：＃垃圾郵件
txt＿class．a(chǎn)ppend（0）
wordlist＝［i for i in wordlist if len（i）＞2］
return dataset，wordlist，txt＿class

第三步：對每一個廣告做循環(huán)，通過函數(shù)words＿vec輸入?yún)?shù)為每則廣告的單詞以及詞匯表wordlists，返回一個文檔向量，向量的每一個元素為0或1，分別表示詞匯表中的單詞在廣告次中是否出現(xiàn)，如果出現(xiàn)該單詞的index則更新為1，否則則為0。

def words＿vec（txt，wordlist）：
returnvec＝［0］＊len（wordlist）
for word in txt：
if word in wordlist：
returnvec［list（wordlist）．index（word）］＝1
return returnvec

經(jīng)過這三步把單詞文本轉(zhuǎn)化為了數(shù)學(xué)向量，大大簡化了計算。

1 2 下一頁>