機(jī)器學(xué)習(xí)之邏輯回歸算法

0 評(píng)論 759 瀏覽 3 收藏 7 分鐘

邏輯回歸算法是機(jī)器學(xué)習(xí)中的一個(gè)二分類問題的方法,有著實(shí)現(xiàn)簡(jiǎn)單、高效率和解釋性較強(qiáng)的有點(diǎn),在預(yù)測(cè)分析上有著比較廣泛的應(yīng)用。這篇文章,我們就來介紹下其算法原理。

一、什么叫邏輯回歸算法?

邏輯回歸是一種用于二分類問題的機(jī)器學(xué)習(xí)方法,它通過一個(gè)名為sigmoid的函數(shù)(平滑函數(shù))將線性回歸的輸出映射到0到1之間的概率值,從而進(jìn)行分類。

盡管名字中包含“回歸”,但實(shí)際上它是一種分類方法,主要用于二分類問題,同時(shí)也推廣到了解決多分類問題。

邏輯回歸模型的輸出是一個(gè)概率值,通常,我們會(huì)設(shè)定一個(gè)閾值,當(dāng)模型輸出的概率大于這個(gè)閾值時(shí),我們將樣本判定為正類,否則判定為負(fù)類。

二、邏輯回歸算法的原理

邏輯回歸的原理就是將線性回歸的輸出結(jié)果通過平滑函數(shù)(Sigmoid函數(shù))轉(zhuǎn)換成0-1間的一個(gè)概率值。這個(gè)概率值為正分類的概率值。

平滑函數(shù)的示意圖如下:

上面提到邏輯回歸一定是在線性回歸的基礎(chǔ)上。線性回歸的Y值分布,正常情況下屬于二項(xiàng)分布,在出現(xiàn)樣本數(shù)據(jù)極其不規(guī)則時(shí)我們認(rèn)為Y值仍屬二項(xiàng)分布。(二項(xiàng)分布的概念可自行了解)

Y值屬于正態(tài)分布

Y值屬于二項(xiàng)分布

對(duì)于二項(xiàng)分布問題,如果某個(gè)事件發(fā)生的概率為 P ,那么該事件不發(fā)生的概率為 1?P,該事件的幾率定義為發(fā)生概率與不發(fā)生概率的比值。我們?nèi)茁实淖匀粚?duì)數(shù)(值可為負(fù)無窮大與正無窮大)映射為線性分布的y值。

ln(P/(1-P))=y 可得出平滑函數(shù)公式

三、邏輯回歸算法的應(yīng)用步驟

1. 數(shù)據(jù)預(yù)處理

2. 確定線性回歸模型的參數(shù)及Y值

定義一個(gè)線性回歸模型,使用梯度下降法(GD)(或用最小二乘法)求得線性回歸方程參數(shù),然后計(jì)算出Y值。

3. 使用平滑函數(shù)計(jì)算出正類概率

4. 定義概率閾值

根據(jù)業(yè)務(wù)需求,設(shè)定一個(gè)概率閾值。

5. 預(yù)測(cè)結(jié)果

四、邏輯回歸算法的適用邊界和優(yōu)缺點(diǎn)

1. 適用邊界

邏輯回歸算法適用于二分類問題,即數(shù)據(jù)只有兩個(gè)類別。

對(duì)于多分類問題,我們可以使用多個(gè)邏輯回歸模型來解決。此外,邏輯回歸算法還要求數(shù)據(jù)滿足一定的假設(shè)條件,比如特征之間是線性可分的,數(shù)據(jù)服從伯努利分布等。

2. 優(yōu)點(diǎn)

  1. 簡(jiǎn)單容易實(shí)現(xiàn)。
  2. 運(yùn)算效率比較高,適合處理大規(guī)模數(shù)據(jù)。
  3. 結(jié)果可解釋性比較強(qiáng)。邏輯回歸模型的結(jié)果可以轉(zhuǎn)化為概率值,方便我們進(jìn)行解釋和分析。

3. 缺點(diǎn)

  1. 線性可分性:邏輯回歸只能處理線性可分的問題,對(duì)于非線性可分的數(shù)據(jù),邏輯回歸的效果會(huì)很差。
  2. 處理多分類問題困難:邏輯回歸通常只能處理二分類問題,對(duì)于多分類問題,需要進(jìn)行一些額外的處理。
  3. 容易過擬合:如果樣本量不足或特征過于復(fù)雜,邏輯回歸容易過擬合。
  4. 對(duì)異常值敏感:邏輯回歸對(duì)異常值較為敏感,特別是在特征空間較小的情況下,異常值可能對(duì)模型的性能產(chǎn)生較大影響。、

五、應(yīng)用場(chǎng)景

線性回歸模型主要是用來預(yù)測(cè)分析,邏輯回歸模型是在線性回歸基礎(chǔ)上進(jìn)行的,因此它也主要是用來預(yù)測(cè),不過邏輯回歸更多用來預(yù)測(cè)二分類而非具體的值。比如預(yù)測(cè)房?jī)r(jià)漲跌問題、預(yù)測(cè)用戶性別、預(yù)測(cè)用戶是否點(diǎn)擊商品(頁面)、預(yù)測(cè)用戶是否購買指定商品等。更多場(chǎng)景如下:

  1. 信用評(píng)估:預(yù)測(cè)個(gè)人或企業(yè)的信用風(fēng)險(xiǎn),幫助銀行和金融機(jī)構(gòu)進(jìn)行信貸決策。
  2. 疾病預(yù)測(cè):根據(jù)患者的臨床特征和醫(yī)學(xué)檢測(cè)結(jié)果,預(yù)測(cè)患者是否患有某種疾病,如糖尿病、高血壓等。
  3. 市場(chǎng)預(yù)測(cè):預(yù)測(cè)市場(chǎng)趨勢(shì)或產(chǎn)品銷售量,幫助企業(yè)制定營(yíng)銷策略和業(yè)務(wù)決策。
  4. 欺詐檢測(cè):識(shí)別信用卡欺詐、網(wǎng)絡(luò)詐騙等欺詐行為,幫助金融機(jī)構(gòu)和電商平臺(tái)提高安全性。
  5. 用戶行為分析:預(yù)測(cè)用戶的行為,如購買意愿、流失風(fēng)險(xiǎn)等,以優(yōu)化個(gè)性化推薦和用戶體驗(yàn)。
  6. 市場(chǎng)調(diào)研:分析市場(chǎng)調(diào)研數(shù)據(jù),預(yù)測(cè)消費(fèi)者對(duì)產(chǎn)品或服務(wù)的偏好和購買意愿。
  7. 網(wǎng)絡(luò)點(diǎn)擊率預(yù)測(cè):預(yù)測(cè)廣告或推廣內(nèi)容的點(diǎn)擊率,幫助廣告主優(yōu)化廣告投放策略。
  8. 人口統(tǒng)計(jì)學(xué)研究:分析人口統(tǒng)計(jì)數(shù)據(jù),預(yù)測(cè)人口群體的行為和趨勢(shì),如選民投票行為、購買決策等。

作者:厚謙,公眾號(hào):小王子與月季

本文由@厚謙 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于CC0協(xié)議。

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒評(píng)論,等你發(fā)揮!