不適合做AB實(shí)驗(yàn)的場景下,如何做出有品質(zhì)的產(chǎn)品決策?

0 評(píng)論 3048 瀏覽 12 收藏 13 分鐘

雖然AB實(shí)驗(yàn)是一種很直接、公正又簡單的產(chǎn)品驗(yàn)證方式,但在現(xiàn)實(shí)中無法做A/B Test的情況又蠻常見,這種情況下該如何做出合理的產(chǎn)品決策呢?本文作者整理了一些AB實(shí)驗(yàn)之外的產(chǎn)品驗(yàn)證方法或流程,希望能給你帶來一些幫助。

雖然AB實(shí)驗(yàn)是一種很直接、公正又簡單的產(chǎn)品驗(yàn)證方式,能夠協(xié)助 PM 們通過數(shù)據(jù)進(jìn)行決策,但在現(xiàn)實(shí)中其實(shí)「無法做 A/B Test」的情況又蠻常見,在這些情況下我們?cè)撛趺匆廊挥袘{有據(jù)的做出合理產(chǎn)品決策呢?

我整理了一些AB實(shí)驗(yàn)以外的產(chǎn)品驗(yàn)證方法或流程,希望能幫助大家通過數(shù)據(jù)決策。

01 哪些狀況不適合AB實(shí)驗(yàn)?遇到這些狀況該怎么辦?

除了公司沒資源沒有實(shí)驗(yàn)架構(gòu)、老板不給時(shí)間這些原因以外,這四種情況也不太適合做AB實(shí)驗(yàn),以下隨場景附上推薦的解決方案:

狀況一:流量太低

當(dāng)產(chǎn)品每天只有千位甚至百位活躍用戶,A/B Test 分組下去一組只剩幾百甚至幾十人,這樣的情況通常不適合做那種改一點(diǎn)按鈕顏色、改一點(diǎn)文字翻譯的小步快跑 A/B Test,因?yàn)槿缤蠹宜?,樣本太少時(shí)并不容易達(dá)成統(tǒng)計(jì)上的顯著。

推薦方法:定性研究為根基的「大步跑」

一個(gè) A/B Test 若樣本數(shù)多、產(chǎn)品改動(dòng)的影響大、時(shí)間跑得長,就越容易達(dá)成統(tǒng)計(jì)上顯著。所以其實(shí)低流量也不是什么問題,只是那些線上樣本計(jì)算機(jī)會(huì)跟你說「你的實(shí)驗(yàn)只要跑 5487 天就會(huì)有顯著結(jié)果哦!」。

現(xiàn)實(shí)中我們當(dāng)然不可能乖乖等 5487 天,通常都希望在幾周內(nèi)可以看到結(jié)果,才好做下一步的產(chǎn)品規(guī)劃,所以這個(gè)時(shí)候我們可以盡量把產(chǎn)品改動(dòng)的規(guī)模擴(kuò)大做大,放棄小步快跑來個(gè)大步跑,若帶來的影響夠大,自然也會(huì)更容易達(dá)成統(tǒng)計(jì)上的顯著。你可以試試這樣做:

  • Step 1:為了降低大改帶來的風(fēng)險(xiǎn),執(zhí)行扎實(shí)徹底的用戶研究。
  • Step 2:規(guī)劃大改動(dòng)(例如整頁信息架構(gòu)調(diào)整,前后流程調(diào)整等等)。
  • Step 3:改動(dòng)上線后通過其他反饋工具來做驗(yàn)證,例如使用 NPS 工具,在產(chǎn)品內(nèi)嵌入簡單的問卷表單,與客服協(xié)作獲得反饋等。還是可以試著跑跑看 A/B Test,如果效果不錯(cuò)影響面夠大也是可以獲得統(tǒng)計(jì)上顯著的。
  • Step 4:若還是想得到量化信息,可以考慮在未來產(chǎn)品流量提升之后,進(jìn)行 Blackout Experiment 來觀測。所謂 Blackout,就是將某個(gè)已上線的改動(dòng)或功能在實(shí)驗(yàn)中暫時(shí)關(guān)掉,看看這些改動(dòng)或功能是否真的有影響。

除了這種「扎實(shí)版大步跑」以外也有一些其他方法手段,我會(huì)在下一大段落中一并分享其他在低流量產(chǎn)品身上也能使用的產(chǎn)品實(shí)驗(yàn)設(shè)計(jì)方法,有興趣的朋友可以滑動(dòng)到底下閱讀。

狀況二:ToB 產(chǎn)品

當(dāng)你的產(chǎn)品用戶非一般消費(fèi)者、而是天天要用你的產(chǎn)品工作的「專業(yè)使用者」或企業(yè),比如說用 POS 系統(tǒng)點(diǎn)餐的餐廳店員、用飯店管理工具后臺(tái)確認(rèn)訂房付款狀況的飯店柜臺(tái)等等,他們已經(jīng)習(xí)慣按鈕顏色、位置、功能,需要一致的體驗(yàn),可能也經(jīng)不起你三天一小改五天一大改、無法預(yù)期的產(chǎn)品實(shí)驗(yàn)。

推薦方法:利用 Beta program 進(jìn)行快速回饋與溝通

可以試著和幾個(gè)關(guān)鍵用戶討論看看他們是否愿意加入「新功能搶先用的」 Beta program,以他們?yōu)橹饕脩粞芯繉?duì)象、訪談、規(guī)劃與開發(fā)產(chǎn)品,開發(fā)后的新功能與改動(dòng)再先利用 Beta program 上線,以獲取早期回饋。

等到這些功能與改動(dòng)比較成熟穩(wěn)定,再開始對(duì)其他用戶做中大型規(guī)模的 A/B Test 來做最后的驗(yàn)證。這樣的話就可以降低對(duì)用戶的干擾程度,也較好對(duì) Beta program 用戶們做預(yù)期管理。

狀況三:新產(chǎn)品

新產(chǎn)品除了跟流量低的產(chǎn)品有相同問題以外,相較于成熟產(chǎn)品,MVP 和理想的商業(yè)模式通常差比較遠(yuǎn),產(chǎn)品本身體驗(yàn)和用戶真正的需求落差也可能更大,在這個(gè)時(shí)候若還堅(jiān)持每次只改動(dòng)一個(gè)變量、慢慢用 A/B Test 當(dāng)成唯一驗(yàn)證手段,或許也不是最有效率的方式。

推薦方法:定性研究與規(guī)律用戶測試為王

在新產(chǎn)品的階段,基本上和狀況一的低流量一樣,需要更多市場研究、用戶研究、競品研究等信息來提供洞見,以及通過反饋工具與客服狀況來了解上線后的效果。

尤其在 MVP 開發(fā)階段,由于產(chǎn)品根本還沒上線也毫無 A/B Test 的可能性,建議安排規(guī)律的(每個(gè)月或甚至每周)User Testing,利用手邊的原型去獲得早期回饋再來做產(chǎn)品調(diào)整,就不用等到上線之后才崩潰的發(fā)現(xiàn)都做得不對(duì)。

另外以早期產(chǎn)品來說,除了易用性與功能,也建議要持續(xù)驗(yàn)證整個(gè)產(chǎn)品的商業(yè)模式,打好基礎(chǔ),同時(shí)收集能夠應(yīng)用在未來產(chǎn)品路途上的信息。

狀況四:難以測量的體驗(yàn)或易用性提升

在大部分情況下,提升易用性、增加便利性還是可以被測量的,但我之前曾遇過一個(gè)我真的不知如何測量的狀況:我們想改善照片編輯 App 的操作手勢,我和設(shè)計(jì)師在長按、雙點(diǎn)擊、一長一短點(diǎn)擊這種常見手勢該搭配什么對(duì)應(yīng)功能之間糾結(jié),長按該把照片往底部推?還是編輯照片?還是拉到最上層?這個(gè)其實(shí)我到現(xiàn)在還沒想到可以跑 A/B Test 的方法(有想法的朋友歡迎跟我分享),因?yàn)檫@件事的驗(yàn)證牽涉到用戶手勢意圖,是數(shù)據(jù)很難告訴我們的信息。

推薦方法:大樣本定性研究

一般的用戶研究會(huì)測試五位用戶左右,因?yàn)楦鶕?jù)研究計(jì)算,只要測試五位用戶就可以看出行為模式、涵蓋大部分的痛點(diǎn)。這里我所謂的大樣本是指比平常用戶研究數(shù)量還多兩三倍的d研究,之前的經(jīng)驗(yàn)是我們從咖啡廳、路上、辦公室等地對(duì) 10–20 位用戶做了易用性測試,確實(shí)記錄每個(gè)動(dòng)作、手勢、使用流程與背后的動(dòng)機(jī)和意圖,再畫成表格比較優(yōu)缺點(diǎn)。

在做這件事情的時(shí)候一定要很小心,確保:

  1. 受測者涵蓋你的目標(biāo)用戶區(qū)隔
  2. 詢問的方式不帶引導(dǎo)性
  3. 詳細(xì)記錄比較用戶的意圖以獲得最公正的信息。

02 六招低流量產(chǎn)品也適用的產(chǎn)品實(shí)驗(yàn)設(shè)計(jì)方法

如果你的產(chǎn)品整體其實(shí)有些流量,但你只負(fù)責(zé)一部分的產(chǎn)品或注重某個(gè)國家或區(qū)域,這里提供六個(gè)步驟幫助你設(shè)計(jì)一個(gè)「測得出結(jié)果」的 A/B Test:

1. 找流量

哪里有流量就往哪里實(shí)驗(yàn)!可以合并不同的用戶區(qū)隔增加樣本數(shù),或者選擇在產(chǎn)品流量較大的頁面做實(shí)驗(yàn)。(以電商為例,可以盡量在流量較多的如落地頁、搜索結(jié)果頁驗(yàn)證你的產(chǎn)品假設(shè),避開那些結(jié)算流程的末端)

2. 將統(tǒng)計(jì)功效(Statistical Power)納入優(yōu)先級(jí)的考量

在排優(yōu)先級(jí)時(shí),選擇樣本數(shù)多、Base conversion 低、預(yù)估影響力大這些「能夠被 A/B Test 驗(yàn)證的」功能??梢岳镁€上的統(tǒng)計(jì)樣本計(jì)算機(jī),先設(shè)定自己「最多可以接受實(shí)驗(yàn)跑多久」的目標(biāo)再反過來計(jì)算需要的樣本數(shù)。記得在做這件事情之前,要先向伙伴說明為何實(shí)驗(yàn)很重要、為何統(tǒng)計(jì)顯著很重要等等,讓團(tuán)隊(duì)都可以理解排序背后的意義。

3. 以創(chuàng)造更大效益為目標(biāo)擴(kuò)大改動(dòng)規(guī)模

停止那些改一點(diǎn)按鈕顏色、改一點(diǎn)文字翻譯的小步快跑 A/B Test,以創(chuàng)造更大效益為目標(biāo),花時(shí)間去研究怎么開發(fā)中大型但有意義的改動(dòng)。但同樣的這個(gè)做法風(fēng)險(xiǎn)也比較高,記得搭配扎實(shí)的事前準(zhǔn)備與研究來使用。

4. 把時(shí)間和資源移到開發(fā)前的研究與早期驗(yàn)證

既然數(shù)據(jù)還無法提供證據(jù),那就用定性研究與反饋來了解用戶行為與動(dòng)機(jī),這些洞見同時(shí)也可以成為產(chǎn)品長大后很好的實(shí)驗(yàn)素材。

5. 延長實(shí)驗(yàn)時(shí)間

如果可以接受,也可以將實(shí)驗(yàn)時(shí)間設(shè)定比較長,一樣可以用上面提過的樣本計(jì)算機(jī)得出合理 Runtime。但記得跑多久這件事一定要在實(shí)驗(yàn)開跑前就規(guī)劃好,一旦確定,就算提早看到成效也不要把實(shí)驗(yàn)提早結(jié)束,也不要為了看到結(jié)果就無限延長,因?yàn)槟嵌己苡锌赡苁清e(cuò)誤的結(jié)果。

6. 重新思考目標(biāo)指標(biāo)

如果 A/B Test 中的主指標(biāo)一直不見效,有可能是因?yàn)橹笜?biāo)本身很難撼動(dòng),可以試著找找其他較容易觀察成效的先行指標(biāo)。但這件事情跟方法五一樣,也最好在實(shí)驗(yàn)前就先規(guī)劃好,不然如果只是到處翻找顯著改善的數(shù)據(jù)指標(biāo),一樣很有可能是錯(cuò)誤的。

03 結(jié)語

其實(shí)在不能做 A/B Test 的情況下,許多的替代方案都是結(jié)合定性研究、反饋收集來獲得決策需要的「證據(jù)」。

一個(gè)有品質(zhì)的產(chǎn)品決策,最重要的就是有清晰的脈絡(luò)與有說服力的原因來告訴你的團(tuán)隊(duì)、你的主管和你的用戶「為什么」這是個(gè)正確的決定,而這些原因都必須要被某種公正證據(jù)支撐著。PM 或設(shè)計(jì)師所要做的,其實(shí)也就是因應(yīng)不同狀況、找到對(duì)的工具、收集足夠的信息來做合理決策。

就說這么多。

專欄作家

駱齊,公眾號(hào):駱齊,人人都是產(chǎn)品經(jīng)理專欄作家。分享產(chǎn)品思維、商業(yè)思維、職場之道、個(gè)人成長相關(guān)內(nèi)容。拉開人生差距的是你的認(rèn)知深度。用文字釀一杯紅酒,和你共飲,回味悠長。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自 Unsplash,基于CC0協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒評(píng)論,等你發(fā)揮!