可用性測試,到底需要找多少個用戶?

0 評論 5240 瀏覽 8 收藏 8 分鐘
🔗 产品经理的不可取代的价值是能够准确发现和满足用户需求,把需求转化为产品,并协调资源推动产品落地,创造商业价值。

可用性測試到底需要多少參與者?本文作者經(jīng)常被問及。由五名參與者進行的可用性研究將發(fā)現(xiàn)超過 80% 的界面問題,他介紹得出該結(jié)論的依據(jù),并且統(tǒng)計抽樣方法也得出了相同結(jié)論。5-10 名參與者是一個合理的基線范圍,應(yīng)在每次研究之前進行評估,并附上了需要考慮的一些事項。

人們經(jīng)常問我:我們的可用性測試需要找多少個用戶?

這個問題是用研人員和利益相關(guān)者間存在大量爭論的根源。作為專業(yè)人士,我們的目標(biāo)是可靠性與業(yè)務(wù)目標(biāo)及其他影響因素(例如時間和預(yù)算)之間取得平衡。這意味著我們應(yīng)識別出不同樣本量測試中潛在的風(fēng)險和影響,并為不同研究項目推薦最佳的小組人數(shù)規(guī)?!?/p>

通常,在不清楚可用性測試內(nèi)如何及什么環(huán)節(jié)使用這些用戶,用研人員就接受了關(guān)于可用性研究流行的人數(shù)建議。典型例子是尼爾森 (Nielsen) 的建議:“由五名參與者進行的可用性研究將發(fā)現(xiàn)超過 80% 的界面問題”。這個著名的建議基于維爾奇 (1992) 和尼爾森 (1993) 的研究。

根據(jù)麥斯菲爾德 (2009) 的說法,他們是這樣得出這個結(jié)論的:“100 組 5 名用戶參加發(fā)現(xiàn)界面問題。該研究的確發(fā)現(xiàn),在所有 100 組中發(fā)現(xiàn)的問題的平均百分比約為 85%。然而,這個數(shù)字有 95 % 的置信水平和 ±18.5% 的誤差范圍。這意味著對于任何一個特定五人組,發(fā)現(xiàn)問題的百分比有 95% 的可能性在 66.5%-100% 的范圍內(nèi)。事實上,一些五人組確實(實際上)識別了所有問題;然而,一個五人組只發(fā)現(xiàn)了 55% 的問題?!?/p>

最近,??思{ (2003) 嘗試使用統(tǒng)計抽樣方法回答同樣的問題。她發(fā)現(xiàn),平均而言,尼爾森的預(yù)測是正確的。在 100 次模擬測試中測試 5 名用戶,發(fā)現(xiàn)平均 85% 的可用性問題是在更大的群體中發(fā)現(xiàn)的。然而,當(dāng)仔細查看數(shù)據(jù)時,由 5 名參與者組成的小組發(fā)現(xiàn)的可用性問題的范圍從幾乎 100% 到只有 55%(類似于早期的研究)。這對用研人員意味著什么?當(dāng)我們只依賴 5 名用戶時,我們冒著錯過幾乎一半可用性問題的風(fēng)險。

回顧??思{的結(jié)果,我們看到增加參與者的數(shù)量,可以解決問題并提高研究結(jié)果的可靠性。更具體地說,10 名參與者平均可以發(fā)現(xiàn) 95% 的問題(范圍從82% 到 100%)。參與者增加到 15 名可以平均識別 97% 的問題(范圍為 90% 到 100%)。

用戶研究 |你的可用性測試到底需要多少人

??思{ (2003) 的表格顯示了不同的參與者群體規(guī)模如何影響研究達到問題發(fā)現(xiàn)的水平。

當(dāng)然,招募超過 5 名用戶并不總是可行的,而且我們不希望一次發(fā)現(xiàn)所有可用性問題!那么應(yīng)該怎么做呢?

就像用戶研究存在諸多方面,沒有一種適合所有方面的方法我們可以采用!答案取決于許多因素,應(yīng)在每次研究之前進行評估。需要考慮的一些因素如下:

  • 研究的影響結(jié)果:如果你沒有盡可能多地發(fā)現(xiàn)可用性問題,會有什么風(fēng)險?與測試購物 app 中的新功能相比,測試一個以人們生命為代價的系統(tǒng)時,可用性問題帶來的風(fēng)險會更高。影響越大,你應(yīng)該招募的參與者就越多。
  • 正在測試的產(chǎn)品/系統(tǒng)的復(fù)雜性:最佳小組規(guī)模應(yīng)受研究復(fù)雜性的影響,更復(fù)雜的研究需要更多的參與者??梢酝ㄟ^一些標(biāo)準(zhǔn)來評估研究的復(fù)雜性:被測系統(tǒng)的復(fù)雜性、所用任務(wù)的范圍和復(fù)雜性、參與者的多樣性等。
  • 目標(biāo)用戶群體:如果你正在開發(fā)存在不同用戶類型的產(chǎn)品,你測試來自所有類型的用戶以獲得有效結(jié)果。例如,如果你有兩種不同的用戶類型,你需要從每個類型(例如5個賣家和 5個買家)中招募一個具有代表性的用戶樣本。
  • 開發(fā)周期的階段:位于越早的開發(fā)過程,就越有可能發(fā)現(xiàn)影響產(chǎn)品功能的嚴(yán)重錯誤。因此,可以從招募較小的樣本開始。隨著產(chǎn)品變得更改善和更優(yōu)化,可用性問題更難發(fā)現(xiàn),需要更大的樣本。
  • 用戶必須使用的主線任務(wù):測試的任務(wù)越多越復(fù)雜,需要的用戶就越多。當(dāng)要求用戶完成基礎(chǔ)的主線任務(wù)時,你可以使用較小的樣本量。
  • 研究目的:研究目的會影響我們需要招募多少用戶。例如,出于政治原因(比如說服利益相關(guān)者)進行可用性研究需要小樣本(2-3名參與者),但如果想測試新產(chǎn)品的可用性,則需要更大的樣本來幫助我們發(fā)現(xiàn)盡可能多的問題。

根據(jù)麥斯菲爾德 (2009) 的評論,可以證明:“對于大多數(shù)發(fā)現(xiàn)問題的研究,3-20 名用戶的小組規(guī)模是有效的,5-10 名參與者是一個合理的基線范圍,并且小組規(guī)模應(yīng)該隨著研究的復(fù)雜性和背景的重要性而增加”。

注意:如果測試質(zhì)量差,再多用戶參與都無濟于事……

研究表明,可用性測試的結(jié)果很大程度上取決于評估者(雅各布森和赫茨姆研究,2001)。例如,使用無效的測試任務(wù)或不正確地促進會話??捎眯詼y試中的錯誤并不少見 —— 即使是有經(jīng)驗的研究人員也會犯錯

正如莫利奇 (2010) 建議的那樣,如果我們使用糟糕的方法,無論參與群體的人數(shù)規(guī)模如何,研究的結(jié)果都會很糟糕…… 選擇正確的方法并努力防止評估者的錯誤應(yīng)該是首要事項。

原文作者:Dr Maria Panagiotidi(本文翻譯已獲得作者的正式授權(quán))

原文:uxpsychology.substack.com/...

譯者:周佳悅;審核:徐曼鷺;編輯:孫淑雅;微信公眾號:TCC翻譯情報局(ID:TCC-design);連接知識,了解全球精選設(shè)計干貨

原標(biāo)題:用戶研究 |你的可用性測試到底需要多少人

本文由@TCC翻譯情報局 翻譯發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自 Unsplash,基于 CC0 協(xié)議

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!
专题
12731人已学习15篇文章
知识付费是内容赛道上的一块高地,有着上百亿的市场规模。本专题的文章分享了关于对知识付费的观点。
专题
12084人已学习12篇文章
精细化运营、抓住老用户、提升用户复购,则将是品牌需要着重留意的地方。本专题的文章分享了提升复购率的N种方法。
专题
15993人已学习12篇文章
数据中台是处于业务前台和技术后台的中间层。本专题的文章分享了如何搭建数据中台。
专题
34417人已学习23篇文章
不懂心理学,怎么懂你的用户;不懂你的用户,又怎么做好产品的设计和运营。
专题
13497人已学习11篇文章
本专题的文章以To G领域为例,从产品经理的角度,分享TO G产品设计指南。