機器學(xué)習(xí)之線性回歸算法

厚謙
0 評論 2387 瀏覽 3 收藏 10 分鐘
🔗 产品经理的不可取代的价值是能够准确发现和满足用户需求,把需求转化为产品,并协调资源推动产品落地,创造商业价值。

線性回歸算法是機器學(xué)習(xí)中一種基于假設(shè)自變量和因變量之間存在線性關(guān)系的統(tǒng)計學(xué)習(xí)方法。本文分享了線性回歸算法的基本原理、實現(xiàn)步驟和應(yīng)用場景,供大家參考。

一、什么是線性回歸算法?

線性回歸算法是一種基于假設(shè)自變量和因變量之間存在線性關(guān)系的統(tǒng)計學(xué)習(xí)方法。

也就是說,我們認(rèn)為因變量y可以表示為自變量x的線性組合加上一個隨機誤差項。例如,如果我們有一個自變量x和一個因變量y,那么我們可以假設(shè)它們之間的關(guān)系為:

y = wx + b + e

其中w是線性系數(shù),b是截距項,e是誤差項。我們的目標(biāo)是根據(jù)已知的x和y的數(shù)據(jù),找到最合適的w和b,使得誤差項e的平方和最小。這就是最小二乘法的思想。

如果我們有多個自變量x1,x2,…,xn和一個因變量y,那么我們可以假設(shè)它們之間的關(guān)系為:

y = w1x1 + w2x2 + … + wnxn + b + e

其中w1,w2,…,wn是線性系數(shù),b是截距項,e是誤差項。我們同樣要找到最合適的w1,w2,…,wn和b,使得誤差項e的平方和最小。

二、線性回歸算法的基本原理是什么?

所以線性回歸算法的思路就是:根據(jù)已有的數(shù)據(jù)去尋找一條“直線”,讓它盡可能的接近這些數(shù)據(jù),再根據(jù)這條直線去預(yù)測新數(shù)據(jù)的結(jié)果。

那么具體要怎么找這條“直線”呢?初中數(shù)學(xué)里描述一條直線時,用的是一元一次方程:y=ax+b,這里的a表示直線的斜率,b表示截距,如下圖所示:

機器學(xué)習(xí)之線性回歸算法

以排隊為例,我們已知x是人的順序,y是排的位置,將已有的x和y數(shù)據(jù)代入到公式中,可以得到一組合適a和b的值來描述這條直線,也就是我們找到了這條直線的分布。

上面比較簡單,只有一個x變量,在實際的應(yīng)用中,會有很多個影響結(jié)果的變量,比如預(yù)測貸款額度時,會有工資、是否有房等變量,用線性回歸的思路解決類似的問題,就要構(gòu)建多元回歸方程了,公式也就變成了 y = a1x1 + a2x2 + … + b

當(dāng)有兩個變量時,線性回歸的分布也就不是一條簡單的直線了,而是一個平面,如下圖所示:

機器學(xué)習(xí)之線性回歸算法

如果有更多的變量,分布就是一個超平面,找到它的分布也會變得更復(fù)雜。

如何計算最優(yōu)解?

機器學(xué)習(xí)中,評價模型的預(yù)測值和實際值差異的公式叫做損失函數(shù),損失函數(shù)值越小,模型性能越好。對于線性回歸模型,我們通常使用平方殘差和(SSE)或均方誤差(MSE)作為損失函數(shù)。

平方殘差和的公式為:

機器學(xué)習(xí)之線性回歸算法

Yi代表實際觀測值,而機器學(xué)習(xí)之線性回歸算法代表模型預(yù)測。通過計算每個觀測值與對應(yīng)預(yù)測值之間的差異(即殘差),并求其平方和,可以得到殘差平方和。這個值越大,說明實際觀測值與模型預(yù)測值之間的差異越大,即模型的擬合效果越差;反之,則說明模型擬合得較好。

均方誤差公式為:

機器學(xué)習(xí)之線性回歸算法

對于線性回歸模型,我們通常使用梯度下降法(GD)(也可用最小二乘法)求得線性回歸方程參數(shù)。梯度下降法是一種迭代式的算法,每次沿著損失函數(shù)的負(fù)梯度方向更新參數(shù),直到收斂到最小值。

三、線性回歸算法的實現(xiàn)步驟是什么?

  1. 數(shù)據(jù)預(yù)處理:將原始數(shù)據(jù)進行歸一化、缺失值處理、異常值處理等預(yù)處理操作,得到訓(xùn)練集和測試集。
  2. 特征提?。簭脑紨?shù)據(jù)中提取出自變量和因變量的特征,通常采用的是最小均方誤差(MSE)作為特征提取的度量標(biāo)準(zhǔn)。
  3. 模型建立:根據(jù)特征提取的結(jié)果,建立線性回歸模型。線性回歸模型的一般形式為:y = w1 * x1 + w2 * x2 + …+ wn * xn + ε。其中,w1,w2,…,wn是線性系數(shù),ε是隨機誤差項。
  4. 參數(shù)求解:使用梯度下降法求解模型的參數(shù)。根據(jù)步驟3,計算得到模型的參數(shù)w1,w2,…,wn和b。
  5. 模型訓(xùn)練:使用訓(xùn)練集對模型進行訓(xùn)練,得到最優(yōu)的模型參數(shù)和訓(xùn)練集。
  6. 模型評估:使用測試集對模型進行評估,計算模型的預(yù)測結(jié)果與真實結(jié)果之間的均方誤差(MSE),作為模型的評估指標(biāo)。

四、優(yōu)缺點

  1. 線性回歸算法的優(yōu)點:
  2. 可解釋性強:可以提供每個特征對目標(biāo)變量的影響程度,有助于理解變量之間的關(guān)系。
  3. 運算效率高:計算速度較快,適用于大規(guī)模數(shù)據(jù)集。
  4. 簡單而直觀:易于理解和解釋,適用于初學(xué)者入門。
  5. 可擴展性強:它可以輕松應(yīng)用到多元線性回歸,也可以應(yīng)用于非線性回歸。

線性回歸算法的缺點:

  1. 僅適用于線性關(guān)系:線性回歸假設(shè)自變量與因變量之間存在線性關(guān)系,對于非線性關(guān)系的數(shù)據(jù)擬合效果較差。
  2. 對異常值敏感:線性回歸對異常值較為敏感,異常值的存在可能會對模型的擬合產(chǎn)生較大影響。
  3. 數(shù)據(jù)較小時容易出現(xiàn)過擬合現(xiàn)象。
  4. 對多重共線性敏感:線性回歸無法捕捉到特征之間的非線性、交互作用等復(fù)雜關(guān)系。當(dāng)自變量之間存在高度相關(guān)性時,線性回歸模型的穩(wěn)定性和可靠性可能會受到影響。

五、應(yīng)用場景

線性回歸的應(yīng)用場景非常廣泛,只要數(shù)據(jù)是符合線性分布的,理論上都可以用線性回歸來進行預(yù)測與分析,如風(fēng)險評估預(yù)測、疾病預(yù)測、員工績效預(yù)測、銷售預(yù)測、交通流量預(yù)測等。

  1. 金融和保險:線性回歸算法可以用來進行保費計算、風(fēng)險評估等金融和保險領(lǐng)域的應(yīng)用。
  2. 運動和健康:線性回歸算法可以用來進行運動員的表現(xiàn)預(yù)測和評估,例如預(yù)測運動員的速度、步幅等。
  3. 預(yù)測員工績效:通過分析員工的教育背景、工作經(jīng)驗、培訓(xùn)等因素與績效之間的關(guān)系。
  4. 營銷分析:分析市場調(diào)研數(shù)據(jù),預(yù)測產(chǎn)品銷售量,并確定哪些因素對銷售量有顯著影響。
  5. 交通規(guī)劃:預(yù)測交通流量,通過分析道路特征、人口密度等因素與交通流量之間的關(guān)系。
  6. 環(huán)境科學(xué):分析環(huán)境數(shù)據(jù),如氣候變化、污染物排放等因素與生態(tài)系統(tǒng)的影響。

參考:

了解線性回歸的算法

線性回歸算法:用“線性外推”的思路做預(yù)測-人人都是產(chǎn)品經(jīng)理-AI小當(dāng)家

作者:厚謙,公眾號:小王子與月季

本文由@厚謙 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于CC0協(xié)議。

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!
专题
14575人已学习13篇文章
营销自动化是一个可用于自动执行营销任务的工具。本专题的文章分享了如何搭建自动化营销平台。
专题
15025人已学习12篇文章
再好的产品,没有优质的推广渠道加持和App投放增长的方法,也很难实现有效传播和增长。本专题的文章分享了App投放推广指南。
专题
12914人已学习12篇文章
随着互联网的不断发展,如今获客渠道及方式也有很多。本专题的文章分享了获客渠道及方法。
专题
12031人已学习13篇文章
Sora产品的爆火,给了我们不少的震撼,感叹AI在内容创作领域的进步实在是太快了。本专题的文章分享了对于Sora的解读和思考。
专题
15219人已学习14篇文章
在我们的生活中,因为大数据的应用,很多事情变得越来越便利。本专题的文章分享了大数据的应用场景。
专题
137803人已学习32篇文章
做一个好运营,技术和意识都得过硬。