移動APP可用性測試:數據的量化處理(下)

作為一名用戶研究從業(yè)者,想找到一本真正可以用來指導實踐的資料卻是十分難得。本文是繼《移動APP可用性測試(上篇):實驗室測試與現場測試對比》后的第二篇《量化研究》,主要和大家來聊一聊,拿到可用性測試數據后的量化方式。綜合上下兩篇文章的主旨來看,解答了如何科學地選擇測試場地、如何量化可用性測試結果的兩個“冷門問題”。
量化數據
用戶研究從業(yè)者常常在做可用性測試的時候碰到這樣的問題,可用性測試作為一種定性的研究方法,拿到完成率、完成時間以及滿意度等結果時是簡單做下描述性統(tǒng)計分析(畢竟我們稱之為定性),還是可以進一步量化、標準化比較呢?
不是所有的數據都可以拿來量化,這取決于這是哪一種可用性測試。
美國教育家和心理學家Scriven(1967)曾將用來測試學習成果的考試分為兩類,一類是Formative test即形成性測試,目的是通過及時的反饋來改進學習(例如隨堂聽寫);另一類是Summative testF即總結性測試,目的是通過測試成績來評估學習的效果(例如期末考試)。
那么,可用性測試如果也分為形成性測試和總結性測試的話,結果會有什么差異嗎?
形成性測試
大部分的可用性測試都是形成性測試,以查找和修復可用性問題為目的,數據也是以問題描述和設計建議的形式來輸出。這時候的量化一般僅以問題發(fā)生頻率和嚴重等級為代表,任務完成率、完成時間因沒有可對比性,所以只做描述性分析。
總結性測試
而總結性測試既然目的是用數據指標去度量一個應用程序的可用性,那么這個指標必然需要一個可以比較的對象,不然又如何去評價這個指標代表的可用性到底是好還是壞。如果以“比較的對象”來劃分,總結性測試則又可以分為“基準測試”和“比較測試”。
(1)基準可用性測試
基準可用性測試的目標是描述一個應用程序相對于基準目標的可用性程度(如用你的每門期末考試的成績去和之前預定的目標成績進行比較),那么這也就提供了改善產品修復問題的著力點(哪門課沒達到預期目標就重點復習),同時為比較改善后的效果提供了基線(重點復習后下次考試是否達到目標)。
(2)比較可用性測試
比較可用性測試,一般設計兩個及以上的應用程序進行比較??梢允钱斍鞍姹九c前期舊版本的比較,或者是競品之間的比較。如果去設計一場比較可用性測試你需要考慮清楚是“被試內測試”(相同的用戶完成所有產品的任務)還是“被試間測試”(不同的用戶分別完成不同產品的任務)。
- 被試內測試:在用戶數較少(或能夠給予的酬金有限,無法邀請多人參與)時可以考慮讓每個用戶分別去完成各款產品的測試,但是必須要切記不能讓所有用戶在每個產品上的先后順序保持一致(打破順序效應)。
- 被試間測試:在用戶數充足時可以考慮每款產品分別找不同的用戶進行測試,但是這里需要注意的則是必須保證每款產品間的用戶個體差異不大(即有相似的年齡、性別、學習經歷、競品使用經歷),如果需要在每組內劃分為新手用戶、中間用戶、專家用戶,則須保證各組中三類角色的人數占比一致。
數據統(tǒng)計
雖然對如何測量有效性、效率和滿意度沒有具體的指導方針,但Sauro and Lewis在一項針對近100個總結性可用性測試的調研揭示了從業(yè)者收集的典型數據。大多數的測試包含任務完成率(失敗率)、任務時間、主觀評價、尋求幫助的次數、可用性問題清單(通常包括問題頻次和嚴重等級)。
本文主要就以上幾個指標的量化處理進行介紹,更多可用性測試中收集測量指標的實操技巧,請參見《A Practical Guide to Measuring Usability》(Sauro,2010)和《Measuring the User Experience》(Tullis andAlbert,2008)。
任務完成率
(1)定義
也稱為成功率,是最基礎的可用性測量指標(Nielsen,2001)。
(2)計算
通常以二進制測量形式采集,以任務成功完成以編碼1、失敗為編碼0。
注:二進制完成率即是基礎可用性度量指標,也是應用到所有科學領域的度量指標。
(3)置信區(qū)間
雖然我們計算出A產品任務1的完成率為80%(10個人中有8人完成)但是我們卻沒有辦法保證當樣本數量為幾百人、幾千人,甚至當我們有上萬用戶在使用這個功能時,完成率還會是80%。
如果想要知道在未知的用戶總數中能夠完成該任務的比例范圍,我們需要在這一樣本范圍上計算出一個二項式的置信區(qū)間。Wald校正區(qū)間二項式置信區(qū)間是最常用的方法,對于任何一種被編為二進制碼的測試都適用。并且除完成率外,另一種衡量可用性的常用方法是統(tǒng)計遇到了同一問題的用戶數。在使用Wald校正區(qū)間公式時,如果3/5的用戶遇到了UI設計上的一個問題,那么我們可以95%的肯定,所有實際用戶中23%-88%比例的人可能遇到了同樣的問題。
任務完成時間
(1)定義
即用戶花費在一個任務上的時間,通常為成功完成一個預先設置的任務場景的時間總和。測量和分析任務持續(xù)時間的方式一般有三種:
- 任務完成時間:用戶成功完成任務的時間;
- 直到用戶失敗為止所用的時間:從開始直到用戶放棄或者未正確完成任務的時間;
- 任務總時間:用戶花費在一個任務上的總持續(xù)時間。
(2)測量單位
可以是毫秒、秒、分鐘、小時、天或年,通常以均值(算術平均數或中位數,兩者適用場景不同)。
(3)算術平均數 VS 中位數
到目前為止,我們最常用的是將算術平均數作為衡量集中趨勢和等級量表的平均數代表,但是當樣本分布呈現為左偏態(tài)和右偏態(tài)時,中位數明顯要比算術平均數更加合適(當為正太分布時中位數與算術平均數相近)。這樣說來,是否以后都用中位數來報告平均任務時長就萬事大吉了?答案是NO,別忘記了中位數與生俱來的兩大缺點:變異性與偏差。關于中位數的變異性與偏差有疑問的同學可查資料或者后臺留言哦,篇幅關系這里就不拓展解釋了。
(4)幾何均值的計算方法
對于小樣本而言(小于25人),幾何均值比中位數、算術平均數都更適用(Sauro and Lewis,2010)。對于樣本量更大的可用性測試而言,中位數則是最合適的估算方法。計算幾何均值,首先要將原始任務時長數據進行對數轉換,然后計算所得到轉化值的平均數,最后再將其轉化回原尺度。工具上可以用Excel函數=LN( )進行對數轉換運算,或者使用大多數計算器上都有的“l(fā)n”按鈕。
滿意度評分
(1)定義
即用戶使用系統(tǒng)時感知到的主觀評價,可在完成一項任務之后立即完成(任務評估問卷),也可以一系列可用性環(huán)節(jié)結束后完成(整體評估問卷),更可以獨立于可用性測試使用。
(2)測量工具
雖然可以自己編寫感知易用性的問題,但采用當前可使用的標準化問卷,評估結果會更加可靠。對用研來說標準化問卷是最熟悉的工具與助手,這類可重復使用的問卷,一般由一組特定的問題+使用特定的格式+按照特定的順序呈現,基于用戶的答案產生度量值后也用特地的方法進行統(tǒng)計。基于不同的研究對象和目的,可選用的標準化問卷也不盡相同,所有的標準化問卷都有其優(yōu)點和缺點,每種問卷都或許在你特定的情況下是最合適的。
常見標準化量表:
(3)比較方法
如果要判斷例如SUS可用性評分、NPS或者任務時長此類連續(xù)變量的均值之間是否存在顯著差異,你首先需要明確的是這是場被試間測試還是被試內測試。并且對于不同的數據類型(連續(xù)變量or 分類變量)、用戶小組數、樣本數,均有不同的統(tǒng)計方法。
下圖為連續(xù)型數據(滿意度評分、任務時長)選擇統(tǒng)計方法的決策圖。離散型二進制數據(任務完成率)的統(tǒng)計決策圖,后面有時間會補上。
可用性問題清單
(1)定義
一般包括所屬模塊、問題編號、問題描述、問題層級(一到四級)、處理優(yōu)先級以及跟進人。
嚴重等級判斷與可用性準則這里就不重復介紹了,此前的上篇已介紹過。
(2)問題優(yōu)先級的計算方式:
[(問題頻數X4)/總參與人數]+嚴重等級
如一個UI問題被提到3次,總參與人數為10人,嚴重等級為三級(一級最高),那么相應的優(yōu)先級則計算為四級(4.2四舍五入為4),即表示該UI問題的修復優(yōu)先級為最低四級。
但是在實際工作中,可用性測試中發(fā)現的問題,當確定好嚴重等級后,修復的優(yōu)先級除了問題頻數,還需要綜合考慮開發(fā)成本、業(yè)務成本,最后需要用研人員與產品經理共同確定修復問題的優(yōu)先級。上方公式僅可作為用研根據問題頻次與嚴重等級去判斷修復優(yōu)先級的算法之一。
總結
關于可用性測試中收集的指標如何量化,本篇中就介紹到這里。其實對于可探索、可深究的問題仍有許多,例如一個復合型的度量指標是否可以全權代表可用性測試中其他指標?小樣本數據的量化是否真的可以達到一個可靠的置信區(qū)間?
帶著問題希望大家可以繼續(xù)深入探討,本次拋磚引玉的介紹就到這里,歡迎交流。
作者:媛媛大王(微信公眾號:用戶研究社?),資深用戶研究員
本文由 @媛媛大王 原創(chuàng)發(fā)布于人人都是產品經理。未經許可,禁止轉載。
專家~有個問題想請教下,像「任務完成率」「任務完成時長」「錯誤次數」「提示次數」這些指標,能否捏合成一個上一層的定量指標?有沒有相關的案例,比如在產品發(fā)展不同階段,通過不同指標整合的公式來測量對比提升的效果這樣的?求分享~
那個圖里,左右偏態(tài)說反啦
對【問題優(yōu)先級的計算方式】有個疑惑,比如一個問題被提到8次,總參與人數為10人,嚴重等級為三級,那么按您說的計算則為8*4/10+3=6.2,那么應該屬于1、2、3、4哪個級別?
學習了
標準化量表確實非常少,這些量表都有相當的理論基礎但對于告訴發(fā)展的互聯網,略顯的有些遲鈍。我原來發(fā)表過一篇關于sus量表的文章,歡迎交流
厲害了word哥
的確,從國外引進的量表很多未經過國內市場的改編,對于互聯網產品的適應力較差,所以基本我們在用的時候都會根據公司的產品和用戶特性進行調整,歡迎交流~!
我這里還有一篇《SUS 量表在用戶體驗度量中的應用》顯示正在排版,可能是小編要控制每天產量,到時再交流