機(jī)器學(xué)習(xí) | 貝葉斯算法及應(yīng)用
樸素貝葉斯是基于“特征之間是獨(dú)立的”這一樸素假設(shè),應(yīng)用貝葉斯定理的監(jiān)督學(xué)習(xí)算法。
基于條件概率的貝葉斯定律數(shù)學(xué)公式
樸素貝葉斯算法
定義
樸素貝葉斯(Naive Bayes,NB)是基于“特征之間是獨(dú)立的”這一樸素假設(shè),應(yīng)用貝葉斯定理的監(jiān)督學(xué)習(xí)算法,是一種分類算法;
對應(yīng)給定的樣本X的特征向量x1,x2,……,xm;該樣本X的類別y的概率可以由貝葉斯公式得到:
區(qū)別
KNN分類算法和決策樹分類算法最終都是預(yù)測出實(shí)例的確定的分類結(jié)果,但是,有時(shí)候分類器會產(chǎn)生錯(cuò)誤結(jié)果;而樸素貝葉斯分類算法則是給出一個(gè)最優(yōu)的猜測結(jié)果,同時(shí)給出猜測的概率估計(jì)值。
推導(dǎo)
(1)特征屬性X之間是獨(dú)立的,所以得到
(2)優(yōu)化得
(3)因?yàn)榉帜笇τ谒蓄悇e為常數(shù),因?yàn)槲覀冎灰獙⒎肿幼畲蠡钥?。又因?yàn)楦魈卣鲗傩允菞l件獨(dú)立的,所以有
流程
- 設(shè)x={a1,a2,……,am}為待分類項(xiàng),其中a為x的一個(gè)特征屬性;
- 類別集合為C={y1,y2,……,yn};
- 分別計(jì)算P(y1|x),P(y2|x),…….,P(yn|x)的值(貝葉斯公式)
高斯樸素貝葉斯
定義
Gaussian Naive Bayes是指當(dāng)特征屬性為連續(xù)值時(shí),而且分布服從高斯分布,那么在計(jì)算P(x|y)的時(shí)候可以直接使用高斯分布的概率公式,其他的與樸素貝葉斯一致
伯努利樸素貝葉斯
定義
Bernoulli Naive Bayes是指當(dāng)特征屬性為連續(xù)值時(shí),而且分布服從伯努利分布,? 那么在計(jì)算P(x|y)的時(shí)候可以直接使用伯努利分布的概率公式:
伯努利分布是一種離散分布,只有兩種可能的結(jié)果。1表示成功,出現(xiàn)的概率為p;? 0表示失敗,出現(xiàn)的概率為q=1-p;其中均值為E(x)=p,方差為Var(X)=p(1-p)
多項(xiàng)式樸素貝葉斯
定義
Multinomial Naive Bayes是指當(dāng)特征屬性服從多項(xiàng)分布(特征是離散的形式的時(shí)候),從而,對于每個(gè)類別y,每個(gè)特征屬性都有一個(gè)對應(yīng)的參數(shù)? θy=(θy1,θy2,……,θyn),其中n為特征屬性的取值數(shù)目,那么P(xk=i|y)的概率為θyi。
舉例應(yīng)用
我們要解決的問題是,網(wǎng)站上有人發(fā)布了一條新的采購信息,采購信息的四個(gè)特點(diǎn)是采購產(chǎn)品沒有在詞庫中,沒有經(jīng)過手機(jī)號校驗(yàn),沒有詳情,非會員發(fā)布的,需要判斷此條采購信息是否真實(shí)
準(zhǔn)備階段
確定特征屬性x={a1,a2, a3 ,a4}
a1? 發(fā)布的采購信息產(chǎn)品詞是否在我們詞庫中;
a2? 發(fā)布信息時(shí)是否對手機(jī)號進(jìn)行的短信驗(yàn)證碼的校驗(yàn);
a3 ?發(fā)布的采購信息是否有詳情;
a4? 發(fā)布者是不是網(wǎng)站的會員;
確定類別集合C={y1,y2 }
y1 線索為真實(shí)采購;
y2 線索為虛假采購;
獲取訓(xùn)練樣本
樣本數(shù)據(jù)如下:
訓(xùn)練階段
下面我將一個(gè)一個(gè)的進(jìn)行統(tǒng)計(jì)計(jì)算(在數(shù)據(jù)量很大的時(shí)候,根據(jù)中心極限定理,頻率是等于概率的):
(1)對每個(gè)類別計(jì)算P(y)
1. P(y=真實(shí))=6/12(總樣本數(shù))=1/2
2. P(y=假)=6/12(總樣本數(shù))=1/2
(2)對每個(gè)特征屬性計(jì)算所有劃分的條件概率P(x | y?)
在真實(shí)條件下
針對特征有無產(chǎn)品詞計(jì)算條件概率:
P(x1=有產(chǎn)品詞 | y)=1/2
P(x1=沒有產(chǎn)品詞 | y)=1/2
針對特征是否經(jīng)過手機(jī)號校驗(yàn)計(jì)算條件概率:
P(x2=經(jīng)過校驗(yàn) | y)=5/6
P(x2=不經(jīng)過校驗(yàn) | y)=1/6
針對特征采購詳情校驗(yàn)計(jì)算條件概率:
P(x3=有詳情 | y)=5/6
P(x3=無詳情 | y)=1/6
針對特征采購詳情校驗(yàn)計(jì)算條件概率:
P(x4=會員 | y)=5/6
P(x4=非會員 | y)=1/6
在虛假條件下:
針對特征有無產(chǎn)品詞計(jì)算條件概率:
P(x1=有產(chǎn)品詞 | y)=2/3
P(x1=沒有產(chǎn)品詞 | y)=1/3
針對特征是否經(jīng)過手機(jī)號校驗(yàn)計(jì)算條件概率:
P(x2=經(jīng)過校驗(yàn) | y)=1/2
P(x2=不經(jīng)過校驗(yàn) | y)=1/2
針對特征采購詳情校驗(yàn)計(jì)算條件概率:
P(x3=有詳情 | y)=0
P(x3=無詳情 | y)=1
針對特征采購詳情校驗(yàn)計(jì)算條件概率:
P(x4=會員 | y)=1/3
P(x4=非會員 | y)=2/3
應(yīng)用階段
目前樣本X為(沒有在詞庫中,沒有經(jīng)過手機(jī)號校驗(yàn),沒有詳情,非會員發(fā)布)
(1)計(jì)算此條線索為真實(shí)的概率
P(xi | y=真實(shí))= P(x1=沒有產(chǎn)品詞 | y)* P(x2=不經(jīng)過校驗(yàn) | y)* P(x3=無詳情 | y)* P(x4=非會員 | y)
=1/2*1/6*1/6*1/6
P(y=真實(shí))= 1/2
(2)計(jì)算此條線索為虛假的概率
P(xi | y=虛假)= P(x1=無產(chǎn)品詞 | y)* P(x2=不經(jīng)過校驗(yàn) | y)* P(x3=無詳情 | y)* P(x4=非會員 | y)
P(y=虛假)= 1/2
(3)比較P(y =虛假|(zhì) x1 , x2 , x3 , x4 )與P(y =真實(shí)| x1 , x2 , x3 , x4 )大小,選擇最大項(xiàng)作為X所屬分類,此條線索為虛假
優(yōu)缺點(diǎn)
優(yōu)點(diǎn):算法邏輯簡單,易于實(shí)現(xiàn);
缺點(diǎn):如果特征屬性之間相關(guān)性較大時(shí),分類效果不好。
本文由 @SincerityY 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
- 目前還沒評論,等你發(fā)揮!