一文搞懂數(shù)據(jù)異常問題該如何分析
編輯導讀:數(shù)據(jù)異常監(jiān)控分析不僅是數(shù)據(jù)分析面試中的高頻考題,同時也是業(yè)務分析中一項常態(tài)化的工作內(nèi)容。當出現(xiàn)了數(shù)據(jù)異常波動的情況,應該如何進行分析呢?本文作者對此發(fā)表了自己的看法,與你分享。
一、數(shù)據(jù)異常波動的表現(xiàn)形式
數(shù)據(jù)異常監(jiān)控分析不僅是數(shù)據(jù)分析面試中的高頻考題,同時也是業(yè)務分析中一項常態(tài)化的工作內(nèi)容。當我們面對市場、產(chǎn)品、運營等各種業(yè)務場景,經(jīng)常會發(fā)現(xiàn)很多異常數(shù)據(jù)的問題,比如:
- 某APP日活DAU相比昨日突然下降了10%,該如何分析?
- 某公司銷售收入環(huán)比上月下降了15%,該如何分析?
- 某產(chǎn)品客單價環(huán)比上月下降了20%,該如何分析?
- ……
上述各種業(yè)務場景,其實都是發(fā)現(xiàn)了數(shù)據(jù)有異常波動的情況,那接下來問題來了,我們該如何著手進行分析呢?大部分人解決問題的思路,都是直奔主題找原因,上來就去找出現(xiàn)異常的原因、異常點在哪里。其實這種分析思路有一個最大的弊端就是不夠體系化,往往能夠找到一些原因,但是很可能是片面的,甚至可能還會踩雷。接下來就給大家分享一種比較實用的方法,我個人稱之為“點 – 線 – 面”分析法。
二、數(shù)據(jù)異常分析的方法論
1. 點
首先排查數(shù)據(jù)準確性,確定是否屬于數(shù)據(jù)錯誤。容易出現(xiàn)數(shù)據(jù)錯誤的環(huán)節(jié)有數(shù)據(jù)采集環(huán)節(jié)(埋點)、數(shù)據(jù)提取環(huán)節(jié)、產(chǎn)品環(huán)節(jié)(BUG)、業(yè)務環(huán)節(jié)(數(shù)據(jù)口徑)等。如果沒有問題進入下一步分析;
2. 線
拉長時間周期,也就是進行縱向分析,看是否屬于周期性波動,有些行業(yè)受季節(jié)或淡旺季影響較大,比如家電、飲料、在線教育等都受淡旺季影響較大。如果沒有問題進入下一步分析;
3. 面
首先,綜合運用公式拆解法、多維度拆解法等對大問題進行拆解,拆解為一個個可著手分析的小問題;然后,通過計算影響系數(shù)初步定位到主要影響原因;最后,大膽假設,小心驗證,通過假設檢驗法逐步排查到產(chǎn)生問題的根本原因。
比如,我們以銷售收入下降為例,通過“點 – 線 – 面”分析中的“點 – 線”分析確認屬于數(shù)據(jù)異常后,接下來就可以在“面”的分析環(huán)節(jié)中采用“三部曲分析”法,主要流程如下:
1)運用公式拆解法、多維度拆解法等對大問題進行拆解
2)計算影響系數(shù),定位主要原因影響系數(shù)=( 細分項本月數(shù) -細分項上月數(shù) ) / ( 本月總量 – 上月總量 )
影響系數(shù)越大,說明該維度數(shù)據(jù)就是造成總體波動的主要影響因素。
3)通過假設檢驗法逐步排查根本原因
假設在計算影響系數(shù)后,初步確定主要是新用戶減少引起的收入下降,接下來就需要對新用戶數(shù)下降的原因進行假設,常見的假設維度有內(nèi)、外部維度,其中內(nèi)部維度主要有渠道側(cè)、產(chǎn)品側(cè)、運營側(cè)、技術(shù)側(cè)等等,然后通過數(shù)據(jù)逐一對上述假設進行驗證。
以上是幾種常見的拆分維度,通過初步拆分,定位原因大致范圍。
三、數(shù)據(jù)異常分析的案例實戰(zhàn)
某連鎖零售集團最近兩年每月銷售收入保持穩(wěn)中有升的趨勢,但是在2021年6月銷售收入突然下降了17%(下圖),這時銷售負責人非常著急,讓你盡快排查一下銷售下跌的原因。面對收入下降這種棘手的問題,如果對于沒有經(jīng)驗的同學,確實還是比較頭疼的,就像那燙手的山芋,無從下手。
接下來,我們就按照按照上面的套路來演練一下。
1. 點
首先排查數(shù)據(jù)準確性,確定不屬于數(shù)據(jù)錯誤;
2. 線
拉長時間周期,不屬于季節(jié)波動;
3. 面
1)首先把總收入拆分成新、老用戶收入
如下圖:
通過觀察數(shù)據(jù),發(fā)現(xiàn)新、老用戶收入均有不同程度下滑,于是啟動第二步,分別計算其影響系數(shù)。
2)計算新、老用戶收入影響系數(shù)
新用戶收入影響系數(shù) =(33 – 47) /(100- 120) =0.7
老用戶收入影響系數(shù) =(67 – 73)/(100- 120) =0.3
新用戶收入影響系數(shù)0.7,說明總收入下降主要影響因素是新用戶收入下降,明確問題的范圍后接著進行細分,新用戶收入的構(gòu)成是什么?
新用戶收入 = 新用戶數(shù)量*轉(zhuǎn)化率* 客單價
通過調(diào)取數(shù)據(jù)分析發(fā)現(xiàn),新用戶轉(zhuǎn)化率和客單價都保持穩(wěn)定,那么問題就出在了新用戶數(shù)量這個指標上,那新用戶又是由什么構(gòu)成呢?
新用戶 = 渠道 1 + 渠道 2 + 渠道 3 + …… + 渠道 n
于是我們把新用戶按照其渠道來源進行拆分:
通過對新用戶渠道來源進行拆分,我們發(fā)現(xiàn)渠道1在2021年6月新用戶數(shù)量下降非常嚴重,于是我們就定位到收入下滑的根本原因在于渠道1新用戶數(shù)量下滑嚴重。接下來我們就可以啟動第三步,對渠道1新用戶數(shù)量下滑原因進行假設檢驗。
3)對渠道新用戶數(shù)下滑原因進行假設檢驗
渠道流量下降可能的原因可以從兩個大的維度進行考慮:對于外部維度,可以考慮外部環(huán)境變動、競品變化等;對于內(nèi)部維度,可能的原因有渠道線索問題、投放策略變化等。這個時候一方面要調(diào)取數(shù)據(jù)進行分析驗證,另一方面需要聯(lián)系渠道1的負責人一起定位具體原因,找到具體原因后,再對癥下藥。
本案例純屬虛構(gòu),如有雷同,純屬巧合。當然,實際的業(yè)務要比這復雜的多,需要考慮的因素也很多,花費的時間也會更長。但是,解決問題的方法論和流程是可復用的。相信大家以后再面對類似問題的時候,會有一個清晰的分析思路和明確的入手點。
最后,我們?nèi)绻麑ι厦娴摹?strong>點 – 線 – 面”分析法進行總結(jié)歸納的話,可以提煉為下面這張圖:
希望這一篇能夠?qū)Υ蠹覝蕚涿嬖嚭蛯嶋H工作有切實的幫助,如果同學覺得有幫助,歡迎點贊、轉(zhuǎn)發(fā)?。〈蠹胰绻衅渌敕?,歡迎加入我一起討論交流。
本文由 @知了數(shù)據(jù)分析 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議。
微信公眾號:知了數(shù)據(jù)分析
本文由 @知了數(shù)據(jù)分析 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議。
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務。
關(guān)注【知了數(shù)據(jù)分析】,獲取更多數(shù)據(jù)分析干貨!