數(shù)據(jù)分析方法論之A/B測試
在產(chǎn)品日常工作中,A/B測試這一方法的使用十分常見,我們可以結(jié)合A/B測試,比較兩個或多個不同版本的產(chǎn)品、服務(wù)或策略,以得出哪個版本結(jié)果相對更優(yōu)。這篇文章里,作者就對A/B測試的流程進(jìn)行了拆解分析,一起來看。
AB測試是一種統(tǒng)計(jì)方法,用于比較兩個或多個不同版本的產(chǎn)品、服務(wù)或策略,以確定哪個版本能夠產(chǎn)生更好的結(jié)果。在AB測試中,將目標(biāo)人群隨機(jī)分為兩組,一組接觸版本A,另一組接觸版本B,然后收集和分析數(shù)據(jù)來評估兩個版本的表現(xiàn)差異。
AB測試最核心的原理,基于控制變量法的思想進(jìn)行假設(shè)檢驗(yàn)。
控制變量法是一種科學(xué)實(shí)驗(yàn)設(shè)計(jì)的方法,旨在減少外部因素對實(shí)驗(yàn)結(jié)果的影響。通過控制變量,研究人員可以更準(zhǔn)確地評估特定因素對實(shí)驗(yàn)結(jié)果的影響,從而得出可靠的結(jié)論。
在使用控制變量法時,研究人員會明確定義并控制可能影響實(shí)驗(yàn)結(jié)果的各個變量,除了感興趣的因素之外,其他變量應(yīng)該保持恒定。這樣做的目的是排除其他可能導(dǎo)致觀察到的差異的干擾因素。
假設(shè)檢驗(yàn)是一種統(tǒng)計(jì)方法,用于對統(tǒng)計(jì)樣本數(shù)據(jù)進(jìn)行分析以驗(yàn)證關(guān)于總體特征的假設(shè)。它基于樣本數(shù)據(jù)的觀察結(jié)果,評估這些觀察結(jié)果是否支持或反駁某個假設(shè)。
在假設(shè)檢驗(yàn)中,通常有兩個假設(shè):
零假設(shè)(H0):表示沒有觀察到的效應(yīng)或差異,即不存在真實(shí)的關(guān)聯(lián)或差異。通常將其表示為無效果、無影響或隨機(jī)性。
備擇假設(shè)(H1或Ha):表示存在觀察到的效應(yīng)、關(guān)聯(lián)或差異,與零假設(shè)相反。它可以是雙邊備擇假設(shè)(兩組之間存在顯著差異)或單邊備擇假設(shè)(一組大于另一組或小于另一組)。
假設(shè)檢驗(yàn)的步驟,通常包括以下幾個方面:
- 確定問題和研究目標(biāo):明確要驗(yàn)證的假設(shè),并確定所需的統(tǒng)計(jì)方法和適當(dāng)?shù)臋z驗(yàn)類型。
- 設(shè)定顯著性水平:選擇顯著性水平(通常為0.05),表示允許出現(xiàn)錯誤地拒絕零假設(shè)的概率。
- 收集數(shù)據(jù)并計(jì)算統(tǒng)計(jì)量:收集樣本數(shù)據(jù),并計(jì)算適當(dāng)?shù)慕y(tǒng)計(jì)量,如均值、比例、差異或相關(guān)性。
- 假設(shè)檢驗(yàn):根據(jù)所選的檢驗(yàn)類型,將計(jì)算得到的統(tǒng)計(jì)量與相應(yīng)的概率分布進(jìn)行比較,以確定是否拒絕零假設(shè)。
- 計(jì)算p值和做出決策:根據(jù)統(tǒng)計(jì)分析結(jié)果計(jì)算出的p值,與事先設(shè)定的顯著性水平進(jìn)行比較。如果p值小于顯著性水平,則拒絕零假設(shè),否則接受零假設(shè)。
AB測試通常用于優(yōu)化網(wǎng)站設(shè)計(jì)、廣告效果、用戶界面、營銷策略等方面。通過對比不同版本的指標(biāo),如點(diǎn)擊率、轉(zhuǎn)化率、銷售量等,可以確定哪個版本更有效,并基于這些結(jié)果做出決策。
一、AB測試流程
二、明確實(shí)驗(yàn)背景
指深入理解組織或產(chǎn)品所面臨的挑戰(zhàn)和目標(biāo),以確定AB測試的關(guān)鍵目的,比如策略效果驗(yàn)證,產(chǎn)品功能驗(yàn)證等
三、選擇指標(biāo)
需要綜合考慮實(shí)際可測性、敏感度、用戶體驗(yàn)、長期影響和業(yè)務(wù)目標(biāo)等因素。通過選擇合適的指標(biāo),可以更好地評估實(shí)驗(yàn)結(jié)果,并做出有效的決策;
指標(biāo)選取的關(guān)鍵考慮因素:
- 目標(biāo):根據(jù)目標(biāo)來選擇與之相關(guān)的指標(biāo)。
- 實(shí)際可測性:確保所選擇的指標(biāo)是可以被準(zhǔn)確測量和收集數(shù)據(jù)的。指標(biāo)應(yīng)該是客觀的,能夠經(jīng)過統(tǒng)計(jì)分析得出可靠的結(jié)論。
- 敏感度:選擇對于變化敏感的指標(biāo)。如果你希望檢測到較小的效果或差異,需要選擇一個相對敏感的指標(biāo)。
- 用戶體驗(yàn):考慮用戶體驗(yàn)指標(biāo),如頁面加載時間、用戶留存率、轉(zhuǎn)化率等。這些指標(biāo)直接關(guān)系到用戶對產(chǎn)品或服務(wù)的滿意度和使用體驗(yàn)。
- 長期影響:除了即時的指標(biāo),還應(yīng)考慮長期的影響。某個指標(biāo)在短期可能有所改善,但可能對長期業(yè)務(wù)結(jié)果并無實(shí)際影響。
- 綜合性:綜合多個指標(biāo)來全面評估測試結(jié)果。單一指標(biāo)可能無法全面反映問題,因此建議選擇多個相關(guān)指標(biāo)進(jìn)行綜合分析。
- 可比性:確保所選擇的指標(biāo)在不同實(shí)驗(yàn)組之間具有可比性,即能夠進(jìn)行有效的統(tǒng)計(jì)對比。
- 業(yè)務(wù)目標(biāo)導(dǎo)向:最重要的是將指標(biāo)與你的業(yè)務(wù)目標(biāo)聯(lián)系起來。選擇那些對于實(shí)現(xiàn)業(yè)務(wù)目標(biāo)有實(shí)際意義的指標(biāo),而非僅僅追求表面上的差異。
四、制定假設(shè)
基于實(shí)驗(yàn)?zāi)繕?biāo)和背景信息,提出明確的假設(shè)。假設(shè)應(yīng)該是可測量的,并明確指出預(yù)期的結(jié)果差異。
計(jì)算樣本量
1)數(shù)值類計(jì)算:需要填寫方差
http://powerandsamplesize.com/Calculators/Compare-2-Means/2-Sample-Equality
https://www.stat.ubc.ca/~rollin/stats/ssize/n2.html
2)比值類計(jì)算:不需要方差
https://www.evanmiller.org/ab-testing/sample-size.html
五、流量分組
分流是指將參與測試的用戶或觀察對象隨機(jī)分配到不同的實(shí)驗(yàn)組(通常是A組和B組)的過程。這樣可以確保實(shí)驗(yàn)組之間的差異僅由測試因素引起,而不受其他因素的干擾。
六、實(shí)驗(yàn)周期計(jì)算
一種常用的方法是通過在線AB測試樣本量計(jì)算器,例如”Sample Size Calculator for AB Testing”等,這些工具會根據(jù)輸入的參數(shù)返回所需的樣本量和實(shí)驗(yàn)持續(xù)時間估計(jì)。
七、AA實(shí)驗(yàn)
也被稱為“純控制組實(shí)驗(yàn)”或“雙重盲試實(shí)驗(yàn)”。在AA實(shí)驗(yàn)中,所有參與實(shí)驗(yàn)的用戶或觀察對象都被隨機(jī)分配到相同的控制組,沒有額外的實(shí)驗(yàn)組。這意味著在AA實(shí)驗(yàn)中,不存在對比組來測試特定變量或功能的效果。
AA實(shí)驗(yàn)通常被用作驗(yàn)證實(shí)驗(yàn)環(huán)境的有效性和穩(wěn)定性,以確保實(shí)驗(yàn)結(jié)果可靠和可解釋。它可以用于評估實(shí)驗(yàn)平臺、數(shù)據(jù)收集方法、測量指標(biāo)等方面的可靠性,或者作為預(yù)實(shí)驗(yàn)(pilot study)的一部分。
八、線上驗(yàn)證
一個是驗(yàn)證實(shí)驗(yàn)策略是否真的觸發(fā)。即我們上線的實(shí)驗(yàn)組,是否在產(chǎn)品上實(shí)際落地了,比如我們優(yōu)化的文案,看實(shí)驗(yàn)組在前端看到的文案是不是優(yōu)化過的。
另一個是驗(yàn)證同一個用戶只能在同一個桶中,要是同時出現(xiàn)在兩個桶中,后期數(shù)據(jù)也會不置信。
九、數(shù)據(jù)檢驗(yàn)
在進(jìn)行AB測試數(shù)據(jù)檢驗(yàn)時,需要選擇適當(dāng)?shù)姆椒ê图僭O(shè),并根據(jù)樣本大小、數(shù)據(jù)分布和實(shí)驗(yàn)設(shè)計(jì)來確定合適的統(tǒng)計(jì)分析方法。
假設(shè)檢驗(yàn)(Hypothesis Testing):根據(jù)AB組的觀測數(shù)據(jù),建立一個零假設(shè)(Null Hypothesis)和一個備擇假設(shè)(Alternative Hypothesis)。零假設(shè)通常假定A組和B組沒有真實(shí)差異,備擇假設(shè)則認(rèn)為存在差異。通過計(jì)算統(tǒng)計(jì)量和對應(yīng)的p值,來評估零假設(shè)的可信程度。
t檢驗(yàn)(t-test):適用于比較兩個相關(guān)或獨(dú)立樣本的平均值差異。如果數(shù)據(jù)滿足正態(tài)分布和其他t檢驗(yàn)的假設(shè)條件,可以使用獨(dú)立樣本t檢驗(yàn)或配對樣本t檢驗(yàn)來比較A組和B組之間的平均值差異。
來源公眾號:FAL-金科應(yīng)用研院(ID:fintechapplab_sz),Make Fintech Easier And Smarter
本文由人人都是產(chǎn)品經(jīng)理合作媒體 @FAL金科應(yīng)用研院 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自 Unsplash,基于 CC0 協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
- 目前還沒評論,等你發(fā)揮!