日韩乱伦一区二区三区,久久国产精品亚色影院

搜索

APP

起點(diǎn)課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標(biāo)識

發(fā)布

注冊 | 登錄

數(shù)據(jù)分析方法論之A/B測試

FAL-金科應(yīng)用研院

2023-09-15

0 評論 6367 瀏覽 26 收藏

11 分鐘

在產(chǎn)品日常工作中，A/B測試這一方法的使用十分常見，我們可以結(jié)合A/B測試，比較兩個或多個不同版本的產(chǎn)品、服務(wù)或策略，以得出哪個版本結(jié)果相對更優(yōu)。這篇文章里，作者就對A/B測試的流程進(jìn)行了拆解分析，一起來看。

AB測試是一種統(tǒng)計(jì)方法，用于比較兩個或多個不同版本的產(chǎn)品、服務(wù)或策略，以確定哪個版本能夠產(chǎn)生更好的結(jié)果。在AB測試中，將目標(biāo)人群隨機(jī)分為兩組，一組接觸版本A，另一組接觸版本B，然后收集和分析數(shù)據(jù)來評估兩個版本的表現(xiàn)差異。

AB測試最核心的原理，基于控制變量法的思想進(jìn)行假設(shè)檢驗(yàn)。

控制變量法是一種科學(xué)實(shí)驗(yàn)設(shè)計(jì)的方法，旨在減少外部因素對實(shí)驗(yàn)結(jié)果的影響。通過控制變量，研究人員可以更準(zhǔn)確地評估特定因素對實(shí)驗(yàn)結(jié)果的影響，從而得出可靠的結(jié)論。

在使用控制變量法時，研究人員會明確定義并控制可能影響實(shí)驗(yàn)結(jié)果的各個變量，除了感興趣的因素之外，其他變量應(yīng)該保持恒定。這樣做的目的是排除其他可能導(dǎo)致觀察到的差異的干擾因素。

假設(shè)檢驗(yàn)是一種統(tǒng)計(jì)方法，用于對統(tǒng)計(jì)樣本數(shù)據(jù)進(jìn)行分析以驗(yàn)證關(guān)于總體特征的假設(shè)。它基于樣本數(shù)據(jù)的觀察結(jié)果，評估這些觀察結(jié)果是否支持或反駁某個假設(shè)。

在假設(shè)檢驗(yàn)中，通常有兩個假設(shè)：

零假設(shè)（H0）：表示沒有觀察到的效應(yīng)或差異，即不存在真實(shí)的關(guān)聯(lián)或差異。通常將其表示為無效果、無影響或隨機(jī)性。

備擇假設(shè)（H1或Ha）：表示存在觀察到的效應(yīng)、關(guān)聯(lián)或差異，與零假設(shè)相反。它可以是雙邊備擇假設(shè)（兩組之間存在顯著差異）或單邊備擇假設(shè)（一組大于另一組或小于另一組）。

假設(shè)檢驗(yàn)的步驟，通常包括以下幾個方面：

確定問題和研究目標(biāo)：明確要驗(yàn)證的假設(shè)，并確定所需的統(tǒng)計(jì)方法和適當(dāng)?shù)臋z驗(yàn)類型。
設(shè)定顯著性水平：選擇顯著性水平（通常為0.05），表示允許出現(xiàn)錯誤地拒絕零假設(shè)的概率。
收集數(shù)據(jù)并計(jì)算統(tǒng)計(jì)量：收集樣本數(shù)據(jù)，并計(jì)算適當(dāng)?shù)慕y(tǒng)計(jì)量，如均值、比例、差異或相關(guān)性。
假設(shè)檢驗(yàn)：根據(jù)所選的檢驗(yàn)類型，將計(jì)算得到的統(tǒng)計(jì)量與相應(yīng)的概率分布進(jìn)行比較，以確定是否拒絕零假設(shè)。
計(jì)算p值和做出決策：根據(jù)統(tǒng)計(jì)分析結(jié)果計(jì)算出的p值，與事先設(shè)定的顯著性水平進(jìn)行比較。如果p值小于顯著性水平，則拒絕零假設(shè)，否則接受零假設(shè)。

AB測試通常用于優(yōu)化網(wǎng)站設(shè)計(jì)、廣告效果、用戶界面、營銷策略等方面。通過對比不同版本的指標(biāo)，如點(diǎn)擊率、轉(zhuǎn)化率、銷售量等，可以確定哪個版本更有效，并基于這些結(jié)果做出決策。

一、AB測試流程

二、明確實(shí)驗(yàn)背景

指深入理解組織或產(chǎn)品所面臨的挑戰(zhàn)和目標(biāo)，以確定AB測試的關(guān)鍵目的，比如策略效果驗(yàn)證，產(chǎn)品功能驗(yàn)證等

三、選擇指標(biāo)

需要綜合考慮實(shí)際可測性、敏感度、用戶體驗(yàn)、長期影響和業(yè)務(wù)目標(biāo)等因素。通過選擇合適的指標(biāo)，可以更好地評估實(shí)驗(yàn)結(jié)果，并做出有效的決策；

指標(biāo)選取的關(guān)鍵考慮因素：

目標(biāo)：根據(jù)目標(biāo)來選擇與之相關(guān)的指標(biāo)。
實(shí)際可測性：確保所選擇的指標(biāo)是可以被準(zhǔn)確測量和收集數(shù)據(jù)的。指標(biāo)應(yīng)該是客觀的，能夠經(jīng)過統(tǒng)計(jì)分析得出可靠的結(jié)論。
敏感度：選擇對于變化敏感的指標(biāo)。如果你希望檢測到較小的效果或差異，需要選擇一個相對敏感的指標(biāo)。
用戶體驗(yàn)：考慮用戶體驗(yàn)指標(biāo)，如頁面加載時間、用戶留存率、轉(zhuǎn)化率等。這些指標(biāo)直接關(guān)系到用戶對產(chǎn)品或服務(wù)的滿意度和使用體驗(yàn)。
長期影響：除了即時的指標(biāo)，還應(yīng)考慮長期的影響。某個指標(biāo)在短期可能有所改善，但可能對長期業(yè)務(wù)結(jié)果并無實(shí)際影響。
綜合性：綜合多個指標(biāo)來全面評估測試結(jié)果。單一指標(biāo)可能無法全面反映問題，因此建議選擇多個相關(guān)指標(biāo)進(jìn)行綜合分析。
可比性：確保所選擇的指標(biāo)在不同實(shí)驗(yàn)組之間具有可比性，即能夠進(jìn)行有效的統(tǒng)計(jì)對比。
業(yè)務(wù)目標(biāo)導(dǎo)向：最重要的是將指標(biāo)與你的業(yè)務(wù)目標(biāo)聯(lián)系起來。選擇那些對于實(shí)現(xiàn)業(yè)務(wù)目標(biāo)有實(shí)際意義的指標(biāo)，而非僅僅追求表面上的差異。

四、制定假設(shè)

基于實(shí)驗(yàn)?zāi)繕?biāo)和背景信息，提出明確的假設(shè)。假設(shè)應(yīng)該是可測量的，并明確指出預(yù)期的結(jié)果差異。

計(jì)算樣本量

1）數(shù)值類計(jì)算：需要填寫方差

http://powerandsamplesize.com/Calculators/Compare-2-Means/2-Sample-Equality

https://www.stat.ubc.ca/~rollin/stats/ssize/n2.html

2）比值類計(jì)算：不需要方差

https://www.evanmiller.org/ab-testing/sample-size.html

五、流量分組

分流是指將參與測試的用戶或觀察對象隨機(jī)分配到不同的實(shí)驗(yàn)組（通常是A組和B組）的過程。這樣可以確保實(shí)驗(yàn)組之間的差異僅由測試因素引起，而不受其他因素的干擾。

六、實(shí)驗(yàn)周期計(jì)算

一種常用的方法是通過在線AB測試樣本量計(jì)算器，例如”Sample Size Calculator for AB Testing”等，這些工具會根據(jù)輸入的參數(shù)返回所需的樣本量和實(shí)驗(yàn)持續(xù)時間估計(jì)。

七、AA實(shí)驗(yàn)

也被稱為“純控制組實(shí)驗(yàn)”或“雙重盲試實(shí)驗(yàn)”。在AA實(shí)驗(yàn)中，所有參與實(shí)驗(yàn)的用戶或觀察對象都被隨機(jī)分配到相同的控制組，沒有額外的實(shí)驗(yàn)組。這意味著在AA實(shí)驗(yàn)中，不存在對比組來測試特定變量或功能的效果。

AA實(shí)驗(yàn)通常被用作驗(yàn)證實(shí)驗(yàn)環(huán)境的有效性和穩(wěn)定性，以確保實(shí)驗(yàn)結(jié)果可靠和可解釋。它可以用于評估實(shí)驗(yàn)平臺、數(shù)據(jù)收集方法、測量指標(biāo)等方面的可靠性，或者作為預(yù)實(shí)驗(yàn)（pilot study）的一部分。

八、線上驗(yàn)證

一個是驗(yàn)證實(shí)驗(yàn)策略是否真的觸發(fā)。即我們上線的實(shí)驗(yàn)組，是否在產(chǎn)品上實(shí)際落地了，比如我們優(yōu)化的文案，看實(shí)驗(yàn)組在前端看到的文案是不是優(yōu)化過的。

另一個是驗(yàn)證同一個用戶只能在同一個桶中，要是同時出現(xiàn)在兩個桶中，后期數(shù)據(jù)也會不置信。

九、數(shù)據(jù)檢驗(yàn)

在進(jìn)行AB測試數(shù)據(jù)檢驗(yàn)時，需要選擇適當(dāng)?shù)姆椒ê图僭O(shè)，并根據(jù)樣本大小、數(shù)據(jù)分布和實(shí)驗(yàn)設(shè)計(jì)來確定合適的統(tǒng)計(jì)分析方法。

假設(shè)檢驗(yàn)（Hypothesis Testing）：根據(jù)AB組的觀測數(shù)據(jù)，建立一個零假設(shè)（Null Hypothesis）和一個備擇假設(shè)（Alternative Hypothesis）。零假設(shè)通常假定A組和B組沒有真實(shí)差異，備擇假設(shè)則認(rèn)為存在差異。通過計(jì)算統(tǒng)計(jì)量和對應(yīng)的p值，來評估零假設(shè)的可信程度。

t檢驗(yàn)（t-test）：適用于比較兩個相關(guān)或獨(dú)立樣本的平均值差異。如果數(shù)據(jù)滿足正態(tài)分布和其他t檢驗(yàn)的假設(shè)條件，可以使用獨(dú)立樣本t檢驗(yàn)或配對樣本t檢驗(yàn)來比較A組和B組之間的平均值差異。

來源公眾號：FAL-金科應(yīng)用研院（ID：fintechapplab_sz），Make Fintech Easier And Smarter

本文由人人都是產(chǎn)品經(jīng)理合作媒體 @FAL金科應(yīng)用研院授權(quán)發(fā)布，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自 Unsplash，基于 CC0 協(xié)議

該文觀點(diǎn)僅代表作者本人，人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容，請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App