數(shù)據(jù)會(huì)說謊?帶你識(shí)別9種常見的數(shù)據(jù)陷阱

0 評(píng)論 6262 瀏覽 32 收藏 13 分鐘

在產(chǎn)品的工作中經(jīng)常需要用到數(shù)據(jù)和對(duì)數(shù)據(jù)進(jìn)行分析,但在這個(gè)過程中其實(shí)隱藏著很多陷阱。數(shù)據(jù)來源、解讀人的觀點(diǎn),都有可能造成很大的偏差。這篇文章,作者統(tǒng)計(jì)了9個(gè)常見且容易操作的數(shù)據(jù)陷阱,希望能對(duì)大家的數(shù)據(jù)分析工作有所幫助。

數(shù)據(jù),正逐漸成為一種重要的生產(chǎn)資料。我們?cè)谶M(jìn)行產(chǎn)品開發(fā),運(yùn)營(yíng)活動(dòng)效果復(fù)盤,都需要數(shù)據(jù)輔助決策,而看起來人畜無害的客觀數(shù)據(jù),卻在各種各樣的場(chǎng)合,以各種意想不到的情況欺騙大家的眼睛。

下面就讓我們一起看下在什么樣的場(chǎng)景下,會(huì)出現(xiàn)這種情況,我們又如何避免呢?

一、九種數(shù)據(jù)陷阱

01 數(shù)據(jù)可視化陷阱

先看下面兩組數(shù)據(jù):

(1)

數(shù)據(jù)會(huì)說謊?帶你識(shí)別九種常見的數(shù)據(jù)陷阱

(2)

數(shù)據(jù)會(huì)說謊?帶你識(shí)別九種常見的數(shù)據(jù)陷阱

從直觀上來說,第二組數(shù)據(jù)的圖形顯示比起第一個(gè)圖的震撼要更大些,或者說,問題似乎‘更嚴(yán)重些’,因?yàn)閮蓚€(gè)柱子的差距比第一個(gè)圖的差距要小。

而實(shí)際上,他們都在描述同一個(gè)事實(shí):2023年上半年總營(yíng)收同比2022年上半年減少200萬;

那么,問題出在哪里?

真相只有一個(gè),就是縱坐標(biāo)的刻度線,第一張圖縱坐標(biāo)的起點(diǎn)是0,而第二張是3200w。

這里圖一通過調(diào)整坐標(biāo)軸的刻度,改變數(shù)據(jù)的視覺效果,從而誤導(dǎo)觀眾對(duì)數(shù)據(jù)的理解。

02 相關(guān)性與因果

下圖是夏天西瓜的銷量與溺亡人數(shù)之間的相關(guān)關(guān)系圖,通過計(jì)算得知,兩者之間的相關(guān)系數(shù)達(dá)到了0.96(等于1為完全相關(guān))。

有人得出結(jié)論:夏天游泳溺亡跟西瓜銷量有直接關(guān)系,應(yīng)該禁止西瓜銷售。

數(shù)據(jù)會(huì)說謊?帶你識(shí)別九種常見的數(shù)據(jù)陷阱

有常識(shí)的人一眼就可以看出這是個(gè)笑話:夏天天氣熱,游泳人數(shù)多,所以溺亡人數(shù)變多,同時(shí),夏天也會(huì)帶來西瓜銷量的提升。

這里為什么會(huì)鬧出這種令人啼笑皆非的笑話,主要是混淆了相關(guān)性和因果性。

相關(guān)性與因果關(guān)系的混淆:當(dāng)兩個(gè)變量之間存在相關(guān)性時(shí),不能簡(jiǎn)單地得出其中一個(gè)變量是另一個(gè)變量的原因的結(jié)論。

同時(shí)相關(guān)性并不意味著因果關(guān)系,因?yàn)榭赡艽嬖谄渌粗淖兞炕驖撛诘幕煜蛩?。在分析?shù)據(jù)時(shí),我們需要進(jìn)行更深入的研究和控制變量,以確定是否存在真正的因果關(guān)系。

03 放大有利數(shù)據(jù)

只看下圖,可以得出:我們的銷售額穩(wěn)中有升,形式似乎一片大好:

數(shù)據(jù)會(huì)說謊?帶你識(shí)別九種常見的數(shù)據(jù)陷阱

但是如果我們將今年所有月份的數(shù)據(jù)取出,結(jié)果與我們之前的結(jié)論完全相反:銷售額隨著月份的變化一直在走低,業(yè)務(wù)部門得想想辦法了。

數(shù)據(jù)會(huì)說謊?帶你識(shí)別九種常見的數(shù)據(jù)陷阱

這里是因?yàn)橐婚_始的圖只放了4-6月銷售額有上升的時(shí)間段,放大了有利數(shù)據(jù),用短期波動(dòng)代替長(zhǎng)期效應(yīng)。給我們?cè)斐闪隋e(cuò)覺。

放大有利數(shù)據(jù):在報(bào)告數(shù)據(jù)時(shí),有可能選擇性地呈現(xiàn)某些結(jié)果,而忽略其他結(jié)果。這種情況下,數(shù)據(jù)的誤導(dǎo)性來自于信息的不完整性或不平衡性。為了避免選擇性報(bào)告的問題,我們應(yīng)該全面、客觀地呈現(xiàn)數(shù)據(jù),或者使用可信的數(shù)據(jù)來源。

其實(shí)在汽車行業(yè)就有這種慣例。汽車行業(yè)在公布數(shù)據(jù)時(shí),如果增長(zhǎng)的好,一般就說增長(zhǎng)率;如果增長(zhǎng)的不好,就會(huì)提排名;排名還不好的話,就開始說細(xì)分市場(chǎng)排名。而且還會(huì)把市場(chǎng)細(xì)分到幾乎只有這款車的范圍,這樣就可以說自己在細(xì)分市場(chǎng)排名前幾。

04 樣本偏差

大家應(yīng)該都聽過一個(gè)段子:過年返鄉(xiāng)的列車上,記者向著車廂問到:買到票的朋友請(qǐng)把手舉起來!剎那間,車廂里的乘客都將手舉了起來,記者激動(dòng)的播報(bào)著:從這里可以看出,群眾們乘車難的問題已得到解決,每個(gè)人都有火車票!

這里其實(shí)是犯了樣本偏差的錯(cuò)誤,從一個(gè)有限的樣本中推斷總體特征時(shí),樣本可能不具有代表性,導(dǎo)致對(duì)總體的錯(cuò)誤認(rèn)識(shí)。這種情況下,數(shù)據(jù)的陷阱來自于樣本的選擇或采集方法。解決這個(gè)問題的方法之一是使用隨機(jī)抽樣來確保樣本的代表性。

一個(gè)實(shí)際案例:

某公司要評(píng)估某款新產(chǎn)品在市場(chǎng)上的受歡迎程度。他們決定在購物中心進(jìn)行了一次問卷調(diào)查,收集了500份調(diào)查問卷。

調(diào)查結(jié)果顯示有80%的受訪者對(duì)新產(chǎn)品表示喜歡和有意愿購買?;谶@個(gè)結(jié)果,市場(chǎng)調(diào)研公司得出結(jié)論認(rèn)為新產(chǎn)品在市場(chǎng)上將受到廣泛歡迎,并投入大量資源進(jìn)行市場(chǎng)推廣。

然而,結(jié)果顯示新產(chǎn)品的銷量遠(yuǎn)不及預(yù)期。公司內(nèi)進(jìn)行復(fù)盤,發(fā)現(xiàn)問卷調(diào)查可能有問題。

因?yàn)?,調(diào)查問卷僅發(fā)放給購物中心的訪客,未能涵蓋更廣泛的消費(fèi)者群體,包括其他渠道或者不常去購物中心的消費(fèi)者,他們的觀點(diǎn)可能不同。這可能導(dǎo)致市場(chǎng)調(diào)研公司過度估計(jì)了新產(chǎn)品的市場(chǎng)潛力。

為了避免樣本偏差導(dǎo)致結(jié)論出錯(cuò)的情況發(fā)生,市場(chǎng)調(diào)研應(yīng)該采用多種渠道和方法,以確保樣本具有代表性??梢栽谫徫镏行闹獾钠渌胤竭M(jìn)行調(diào)查,或者使用在線調(diào)查等方式進(jìn)行數(shù)據(jù)收集,以覆蓋更廣泛的消費(fèi)者群體。這樣可以更全面地了解市場(chǎng)對(duì)新產(chǎn)品的態(tài)度和需求,并制定更準(zhǔn)確的決策。

05 數(shù)據(jù)口徑問題

假設(shè)有兩個(gè)機(jī)構(gòu)A和B,它們都在報(bào)告某個(gè)國家的失業(yè)率。

  • 機(jī)構(gòu)A使用廣義定義上的失業(yè)率,包括所有正在尋找工作但沒有找到的人,并將其與勞動(dòng)力總數(shù)相除。根據(jù)機(jī)構(gòu)A的統(tǒng)計(jì)數(shù)據(jù),失業(yè)率為5%。
  • 機(jī)構(gòu)B使用狹義定義上的失業(yè)率,僅包括那些正在尋找工作但沒有找到的人,并將其與就業(yè)人口相除。根據(jù)機(jī)構(gòu)B的統(tǒng)計(jì)數(shù)據(jù),失業(yè)率為3%。

由于機(jī)構(gòu)A和機(jī)構(gòu)B使用了不同的統(tǒng)計(jì)口徑,導(dǎo)致了失業(yè)率的差異。機(jī)構(gòu)A的統(tǒng)計(jì)方法更加寬泛,包括更多的人群,因此失業(yè)率較高。

而機(jī)構(gòu)B的統(tǒng)計(jì)方法較為嚴(yán)格,只計(jì)算特定群體的失業(yè)率,因此失業(yè)率較低。

這種差異可能會(huì)對(duì)政策制定和經(jīng)濟(jì)分析產(chǎn)生重要影響。例如,機(jī)構(gòu)A可能會(huì)認(rèn)為需要采取更多的就業(yè)刺激措施,而機(jī)構(gòu)B可能會(huì)認(rèn)為就業(yè)市場(chǎng)已經(jīng)相對(duì)健康。

這個(gè)案例表明,即使數(shù)據(jù)都是正確的,但是因?yàn)閿?shù)據(jù)統(tǒng)計(jì)口徑不同,進(jìn)行解釋時(shí),結(jié)論不一致的情況也會(huì)發(fā)生。

06 基數(shù)問題

(1)某件商品在50%折扣的基礎(chǔ)上再打20%折扣,我們?nèi)菀滓詾闀?huì)有70%的折扣。

實(shí)際上,折扣只有60%——因?yàn)楹竺?0%的折扣實(shí)在50%即五折的基礎(chǔ)上折算的。

(2)A基金年化收益率對(duì)比去年增加了100%!容易讓人熱血沸騰,下一秒就想梭哈。

實(shí)際情況可能是:A基金去年的年化收益率只有1%,今年達(dá)到了2%,而同期的銀行利率可能高于這個(gè)數(shù)。

07 樣本分布是非正態(tài)分布

用平均數(shù)掩蓋分布。

美國前總統(tǒng)小布什在競(jìng)選演講中曾經(jīng)說到:我的2003年的減稅計(jì)劃讓4000多萬美國家庭平均少納稅1586美元,從純數(shù)字角度來看,沒有任何問題。但是這里有很強(qiáng)的誤導(dǎo)性。

因?yàn)樨?cái)富的分配不服從正態(tài)分布,大部分家庭收入不高,減稅的額度非常有限,但小部分收入極高的家庭,減稅的額度甚至能達(dá)到幾十萬美元,從而拉高了平均數(shù)。

實(shí)際上,當(dāng)年減稅的中位數(shù)是650美元,可以理解為有一半的家庭減稅額度都沒達(dá)到650美元。

08 數(shù)據(jù)樣本不足

“今年經(jīng)濟(jì)學(xué)院的新來的研究生,有三分之一身高超過一米九,我們學(xué)院今年籃球賽奪冠有希望了?!?/p>

實(shí)際上,今年只錄取了三名研究生,其中一個(gè)人身高超過了一米九。

這里其實(shí)犯了數(shù)據(jù)樣本不足的問題,因?yàn)闃颖静蛔?,用百分比掩蓋規(guī)模。導(dǎo)致數(shù)據(jù)解讀出誤。

09 信息不完整

有這樣一則數(shù)據(jù):過去幾十年,癌癥的死亡人數(shù)增多。

這個(gè)數(shù)據(jù)結(jié)論看起來非常嚇人。但實(shí)際上忽略了很多其他因素。如:

  1. 現(xiàn)在的人數(shù)遠(yuǎn)遠(yuǎn)超過以前;
  2. 由于醫(yī)學(xué)的進(jìn)步,從前很多死因不明的案例,在現(xiàn)在,都被歸到了具體的癌癥類別;
  3. 因?yàn)楝F(xiàn)代社會(huì)的發(fā)展,各個(gè)易發(fā)病的年齡段人數(shù)在不斷增加;

這里是犯了信息不完整的錯(cuò)誤,有時(shí)候,我們?cè)诜治龌蚩偨Y(jié)事物時(shí)可能會(huì)遺漏某些變化的原因。這可能是因?yàn)槲覀儧]有獲得所有相關(guān)數(shù)據(jù),或者我們只關(guān)注了部分信息而忽略了其他方面。

三、總結(jié)

以上,我們通過具體的案例總結(jié)了數(shù)據(jù)誤導(dǎo)性的九種常見的類型。分別是:數(shù)據(jù)可視化陷阱、相關(guān)性與因果、放大有利數(shù)據(jù)、樣本偏差、數(shù)據(jù)口徑問題、基數(shù)問題、樣本分布是非正態(tài)分布、數(shù)據(jù)樣本不足、信息不完整。

之后,再遇到別人用數(shù)據(jù)做出的論斷時(shí),建議先對(duì)照著上述的九種場(chǎng)景,防止陷入數(shù)據(jù)陷阱。

最后,多說一句:數(shù)據(jù)不會(huì)說謊,但解讀數(shù)據(jù)的人會(huì)。

微信公眾號(hào):董點(diǎn)數(shù)據(jù),分享產(chǎn)品、運(yùn)營(yíng)、數(shù)據(jù)思維。

本文由 @董點(diǎn)數(shù)據(jù) 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于CC0協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒評(píng)論,等你發(fā)揮!