機(jī)器學(xué)習(xí) | 貝葉斯算法及應(yīng)用

0 評論 6707 瀏覽 18 收藏 10 分鐘

樸素貝葉斯是基于“特征之間是獨(dú)立的”這一樸素假設(shè),應(yīng)用貝葉斯定理的監(jiān)督學(xué)習(xí)算法。

基于條件概率的貝葉斯定律數(shù)學(xué)公式

樸素貝葉斯算法

定義

樸素貝葉斯(Naive Bayes,NB)是基于“特征之間是獨(dú)立的”這一樸素假設(shè),應(yīng)用貝葉斯定理的監(jiān)督學(xué)習(xí)算法,是一種分類算法;

對應(yīng)給定的樣本X的特征向量x1,x2,……,xm;該樣本X的類別y的概率可以由貝葉斯公式得到:

區(qū)別

KNN分類算法和決策樹分類算法最終都是預(yù)測出實(shí)例的確定的分類結(jié)果,但是,有時(shí)候分類器會產(chǎn)生錯(cuò)誤結(jié)果;而樸素貝葉斯分類算法則是給出一個(gè)最優(yōu)的猜測結(jié)果,同時(shí)給出猜測的概率估計(jì)值。

推導(dǎo)

(1)特征屬性X之間是獨(dú)立的,所以得到

(2)優(yōu)化得

(3)因?yàn)榉帜笇τ谒蓄悇e為常數(shù),因?yàn)槲覀冎灰獙⒎肿幼畲蠡钥?。又因?yàn)楦魈卣鲗傩允菞l件獨(dú)立的,所以有

流程

  • 設(shè)x={a1,a2,……,am}為待分類項(xiàng),其中a為x的一個(gè)特征屬性;
  • 類別集合為C={y1,y2,……,yn};
  • 分別計(jì)算P(y1|x),P(y2|x),…….,P(yn|x)的值(貝葉斯公式)

高斯樸素貝葉斯

定義

Gaussian Naive Bayes是指當(dāng)特征屬性為連續(xù)值時(shí),而且分布服從高斯分布,那么在計(jì)算P(x|y)的時(shí)候可以直接使用高斯分布的概率公式,其他的與樸素貝葉斯一致

伯努利樸素貝葉斯

定義

Bernoulli Naive Bayes是指當(dāng)特征屬性為連續(xù)值時(shí),而且分布服從伯努利分布,? 那么在計(jì)算P(x|y)的時(shí)候可以直接使用伯努利分布的概率公式:

伯努利分布是一種離散分布,只有兩種可能的結(jié)果。1表示成功,出現(xiàn)的概率為p;? 0表示失敗,出現(xiàn)的概率為q=1-p;其中均值為E(x)=p,方差為Var(X)=p(1-p)

多項(xiàng)式樸素貝葉斯

定義

Multinomial Naive Bayes是指當(dāng)特征屬性服從多項(xiàng)分布(特征是離散的形式的時(shí)候),從而,對于每個(gè)類別y,每個(gè)特征屬性都有一個(gè)對應(yīng)的參數(shù)? θy=(θy1,θy2,……,θyn),其中n為特征屬性的取值數(shù)目,那么P(xk=i|y)的概率為θyi。

舉例應(yīng)用

我們要解決的問題是,網(wǎng)站上有人發(fā)布了一條新的采購信息,采購信息的四個(gè)特點(diǎn)是采購產(chǎn)品沒有在詞庫中,沒有經(jīng)過手機(jī)號校驗(yàn),沒有詳情,非會員發(fā)布的,需要判斷此條采購信息是否真實(shí)

準(zhǔn)備階段

確定特征屬性x={a1,a2, a3 ,a4}

a1? 發(fā)布的采購信息產(chǎn)品詞是否在我們詞庫中;

a2? 發(fā)布信息時(shí)是否對手機(jī)號進(jìn)行的短信驗(yàn)證碼的校驗(yàn);

a3 ?發(fā)布的采購信息是否有詳情;

a4? 發(fā)布者是不是網(wǎng)站的會員;

確定類別集合C={y1,y2 }

y1 線索為真實(shí)采購;

y2 線索為虛假采購;

獲取訓(xùn)練樣本

樣本數(shù)據(jù)如下:

訓(xùn)練階段

下面我將一個(gè)一個(gè)的進(jìn)行統(tǒng)計(jì)計(jì)算(在數(shù)據(jù)量很大的時(shí)候,根據(jù)中心極限定理,頻率是等于概率的):

(1)對每個(gè)類別計(jì)算P(y)

1. P(y=真實(shí))=6/12(總樣本數(shù))=1/2

2. P(y=假)=6/12(總樣本數(shù))=1/2

(2)對每個(gè)特征屬性計(jì)算所有劃分的條件概率P(x | y?)

在真實(shí)條件下

針對特征有無產(chǎn)品詞計(jì)算條件概率:

P(x1=有產(chǎn)品詞 | y)=1/2

P(x1=沒有產(chǎn)品詞 | y)=1/2

針對特征是否經(jīng)過手機(jī)號校驗(yàn)計(jì)算條件概率:

P(x2=經(jīng)過校驗(yàn) | y)=5/6

P(x2=不經(jīng)過校驗(yàn) | y)=1/6

針對特征采購詳情校驗(yàn)計(jì)算條件概率:

P(x3=有詳情 | y)=5/6

P(x3=無詳情 | y)=1/6

針對特征采購詳情校驗(yàn)計(jì)算條件概率:

P(x4=會員 | y)=5/6

P(x4=非會員 | y)=1/6

在虛假條件下:

針對特征有無產(chǎn)品詞計(jì)算條件概率:

P(x1=有產(chǎn)品詞 | y)=2/3

P(x1=沒有產(chǎn)品詞 | y)=1/3

針對特征是否經(jīng)過手機(jī)號校驗(yàn)計(jì)算條件概率:

P(x2=經(jīng)過校驗(yàn) | y)=1/2

P(x2=不經(jīng)過校驗(yàn) | y)=1/2

針對特征采購詳情校驗(yàn)計(jì)算條件概率:

P(x3=有詳情 | y)=0

P(x3=無詳情 | y)=1

針對特征采購詳情校驗(yàn)計(jì)算條件概率:

P(x4=會員 | y)=1/3

P(x4=非會員 | y)=2/3

應(yīng)用階段

目前樣本X為(沒有在詞庫中,沒有經(jīng)過手機(jī)號校驗(yàn),沒有詳情,非會員發(fā)布)

(1)計(jì)算此條線索為真實(shí)的概率

P(xi | y=真實(shí))= P(x1=沒有產(chǎn)品詞 | y)* P(x2=不經(jīng)過校驗(yàn) | y)* P(x3=無詳情 | y)* P(x4=非會員 | y)

=1/2*1/6*1/6*1/6

P(y=真實(shí))= 1/2

(2)計(jì)算此條線索為虛假的概率

P(xi | y=虛假)= P(x1=無產(chǎn)品詞 | y)* P(x2=不經(jīng)過校驗(yàn) | y)* P(x3=無詳情 | y)* P(x4=非會員 | y)

P(y=虛假)= 1/2

(3)比較P(y =虛假|(zhì) x1 , x2 , x3 , x4 )與P(y =真實(shí)| x1 , x2 , x3 , x4 )大小,選擇最大項(xiàng)作為X所屬分類,此條線索為虛假

優(yōu)缺點(diǎn)

優(yōu)點(diǎn):算法邏輯簡單,易于實(shí)現(xiàn);

缺點(diǎn):如果特征屬性之間相關(guān)性較大時(shí),分類效果不好。

本文由 @SincerityY 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!