構(gòu)建完行為分析報(bào)表后,如何識(shí)別異常與指標(biāo)修復(fù)?「用戶行為分析」【修復(fù)篇】
在數(shù)據(jù)分析的世界里,準(zhǔn)確識(shí)別并修復(fù)數(shù)據(jù)報(bào)表中的異常是確保決策有效性的關(guān)鍵。本文深入探討了用戶行為分析中的異常識(shí)別與修復(fù)手段,從理解業(yè)務(wù)背景和客觀規(guī)律到具體的修復(fù)策略,為讀者提供了一套全面的指南。
從《用戶行為分析-構(gòu)建篇》到本篇已經(jīng)是第三篇了,分別圍繞用戶行為分析的全流程講述了數(shù)據(jù)集構(gòu)建-分析方法-異常修復(fù)這三趴,雖然三篇是圍繞流程互通的,但也因?yàn)橹髦v的內(nèi)容會(huì)分布到不同的職能上,所以有些讀者群體們產(chǎn)生不了多少興趣,或者說工作上還沒有遇到諸如此類的問題還不太用的上,但是沒有關(guān)系,我依舊期望在你需要的時(shí)候,能夠在搜索結(jié)果或是收藏夾中出現(xiàn)它們的身影,為你提供一套標(biāo)準(zhǔn)可用的用戶行為分析指南。
一、如何識(shí)別報(bào)表數(shù)據(jù)異常
為什么要留意報(bào)表中的數(shù)據(jù)異常?你聽我放屁:天災(zāi)人禍你要渡過難關(guān)、潑天富貴你要想法接住、事在人為你要對(duì)比效果。簡言之幫助產(chǎn)品運(yùn)營良性發(fā)展。
1、識(shí)別與修復(fù)的重要性
數(shù)據(jù)報(bào)表會(huì)用作業(yè)務(wù)決策參考,不想被帶偏就要確保準(zhǔn)確性,所以當(dāng)我們完成報(bào)表搭建以后,先不考慮業(yè)務(wù)數(shù)據(jù)是否漂亮、是否有外界因素干擾,一定要先檢查從數(shù)據(jù)加工到報(bào)表建成的這個(gè)過程中是否有紕漏,如果這個(gè)過程沒有問題,數(shù)據(jù)依舊異常,則要進(jìn)一步觀測數(shù)據(jù)采集階段是否有問題,只有當(dāng)數(shù)據(jù)從采集到加工成報(bào)表都沒啥問題時(shí),最后代入到業(yè)務(wù)場景中分析異常原因才有價(jià)值。
在工作場景中的價(jià)值
作為一名非數(shù)據(jù)分析師,你可能是PD、UE、UX、UI等,但作為產(chǎn)研人員你不關(guān)注業(yè)務(wù)數(shù)據(jù)有些說不過去,而掌握不同程度的數(shù)據(jù)異常識(shí)別與修復(fù)能力,可以更便捷的滿足自身業(yè)務(wù)數(shù)據(jù)分析的需要。雖然張嘴提數(shù)據(jù)需求很快,但是需求什么時(shí)候落地你還得靜候佳音,所以通過自助分析減少對(duì)BI同學(xué)的依賴,加快響應(yīng)何嘗不可;
好了,再聊回來如何識(shí)別異常~
清晰業(yè)務(wù)背景與客觀規(guī)律
事實(shí)上要搞清楚你的數(shù)據(jù)報(bào)表有沒有問題,最簡單快捷的辦法就是了解業(yè)務(wù)與產(chǎn)品屬性后找客觀規(guī)律,因此數(shù)據(jù)不要揪著那么一兩天的看,也不要只停留在報(bào)表上找問題,最好是把數(shù)據(jù)的周期范圍拉長,以形成參考對(duì)比便于觀察趨勢變化,如果數(shù)據(jù)指標(biāo)比較單一,不能構(gòu)建趨勢或環(huán)比,那么你也可以結(jié)合業(yè)務(wù)流程、指標(biāo)結(jié)構(gòu)、行業(yè)標(biāo)準(zhǔn)等來看,看數(shù)據(jù)指標(biāo)是否處于合理的水準(zhǔn)。
如果上述的流程方法你一個(gè)字也沒看進(jìn)去,那么請(qǐng)看這個(gè)例子:
如果當(dāng)產(chǎn)品內(nèi)部沒有主動(dòng)的變量事件,外部也沒有明顯的被動(dòng)事件影響,且數(shù)據(jù)指標(biāo)還不符合客觀規(guī)律或業(yè)務(wù)預(yù)期,那么大概率報(bào)表搭建的過程中出了Bug,準(zhǔn)備找問題吧hhhh
以下是針對(duì)業(yè)務(wù)背景與客觀規(guī)律的變量整理,一些常見的基本都概括了,在進(jìn)行報(bào)表數(shù)據(jù)異常排查時(shí)可以參考;
通??陀^規(guī)律是比較能夠反映出數(shù)據(jù)異常的,因?yàn)閿?shù)據(jù)有一定的標(biāo)準(zhǔn)或規(guī)律可言,另外就是配合業(yè)務(wù)背景或行業(yè)狀況來解釋或預(yù)測數(shù)據(jù)的變動(dòng),這兩套數(shù)據(jù)異常識(shí)別方法,基本上可以用一套決策樹來概括;
業(yè)務(wù)數(shù)據(jù)-多表對(duì)比驗(yàn)證
用戶行為分析構(gòu)建通常會(huì)單獨(dú)創(chuàng)建一套行為數(shù)據(jù)采集系統(tǒng),這表明相關(guān)的數(shù)據(jù)表不止一套,一般還有業(yè)務(wù)后臺(tái)的數(shù)據(jù)、渠道投放數(shù)據(jù)等,這個(gè)時(shí)候我們就可以將相關(guān)的核心指標(biāo)或大盤數(shù)據(jù)進(jìn)行抽樣對(duì)比,如果數(shù)據(jù)對(duì)不上,那就代表數(shù)據(jù)報(bào)表搭建的有問題,一般業(yè)務(wù)后臺(tái)的接口數(shù)據(jù)是不會(huì)出錯(cuò)的,遇到數(shù)據(jù)對(duì)不上就老老實(shí)實(shí)檢查報(bào)表或采集系統(tǒng)吧。
二、如何修復(fù)數(shù)據(jù)指標(biāo)異常
一套用戶行為分析報(bào)表剛構(gòu)建好之時(shí),用戶行為指標(biāo)異常無非就兩方面;
一方面就是用戶群中確實(shí)有異常的行為帶來了異常的數(shù)據(jù)或趨勢,這些是要結(jié)合業(yè)務(wù)營銷或外界因素來找原因了,但可以肯定的是異常數(shù)據(jù)是對(duì)的,沒有說謊,例如商品的優(yōu)惠券配置錯(cuò)了,給出了驚人的優(yōu)惠,導(dǎo)致下單量數(shù)據(jù)與趨勢遠(yuǎn)超以往,數(shù)據(jù)看起來是異常的,但卻是能找到對(duì)應(yīng)異常原因的。
另一方面就是你的數(shù)據(jù)采集到計(jì)算加工出錯(cuò)了,事實(shí)上這種情況也時(shí)有發(fā)生,常見于多個(gè)同事交叉作業(yè)、采集需求不完善、數(shù)據(jù)維護(hù)不規(guī)范、工作量較大出現(xiàn)紕漏、數(shù)據(jù)處理不熟練等。
那么接下來就好好跟大家嘮嘮數(shù)據(jù)報(bào)表構(gòu)建完后,如何修復(fù)這些異常問題。
修復(fù)過程我結(jié)合我個(gè)人的習(xí)慣與過往經(jīng)驗(yàn)拆分成了六個(gè)部分,相較于專業(yè)的BI數(shù)字建模開發(fā),可能還是有些差距的,但是也算夠用,起碼能夠自己Hold住大多問題,剩下的疑難雜癥再抱抱BI同事的大腿即可~
1、定位數(shù)據(jù)異常
這是數(shù)據(jù)異常修復(fù)的首要工作,如何識(shí)別異常已經(jīng)在上一趴聊過了,那么如何定位問題主要有兩個(gè)行動(dòng)方向;
需要注意的是在數(shù)據(jù)驗(yàn)證的過程中,采用相同條件的過濾或數(shù)據(jù)范圍,保證口徑的統(tǒng)一,那么當(dāng)你找到數(shù)據(jù)異常發(fā)生在底層還是在中間加工層后,那么就進(jìn)入下一步驟治理工作了。
2、給數(shù)據(jù)打補(bǔ)丁
給數(shù)據(jù)打補(bǔ)丁就是加篩選條件,發(fā)現(xiàn)數(shù)據(jù)有異常后將異常的部分過濾掉即可,通過觀察這些異常數(shù)據(jù)的規(guī)律來界定一個(gè)數(shù)據(jù)有效的范圍或標(biāo)準(zhǔn),然后在數(shù)據(jù)報(bào)表上添加數(shù)據(jù)過濾或判斷,通常數(shù)據(jù)或報(bào)表工具一定會(huì)具備這些功能,在前文有個(gè)清洗調(diào)研問卷的例子還有印象嗎?其實(shí)就是將無效的用戶反饋剔除即可;
※你可能會(huì)好奇這些臟數(shù)據(jù)從哪里來的?
除了以上交互邏輯不完善導(dǎo)致用戶填入的數(shù)據(jù)外,還有一些可能是來自產(chǎn)品內(nèi)部測試、腳本測試、數(shù)據(jù)爬蟲、灰產(chǎn)攻擊、數(shù)據(jù)采集Bug等,所以如果團(tuán)隊(duì)內(nèi)部有大量測試或腳本動(dòng)作,一定開個(gè)名單把這些數(shù)據(jù)過濾掉,其他的則可以通過觀察產(chǎn)生異常數(shù)據(jù)的賬號(hào)、設(shè)備信息、MAC地址、參數(shù)內(nèi)容、IP網(wǎng)絡(luò)等信息來找規(guī)律和數(shù)據(jù)規(guī)避,例如寫一個(gè)條件判斷的計(jì)算列,有效為0無效為1,數(shù)據(jù)分析時(shí)過濾掉為1的即可;
3、修正函數(shù)算法
在我的過往經(jīng)歷中,指標(biāo)度量的出錯(cuò)通常有兩種情況,一個(gè)是你的函數(shù)能跑,但寫的不符合指標(biāo)的預(yù)期,另一個(gè)是你計(jì)算過程中,引用了錯(cuò)的字段參數(shù),這兩種情況都會(huì)使得最終的指標(biāo)度量不對(duì)。
如果你函數(shù)用的比較熟練,那么通常出錯(cuò)的原因往往是用了不對(duì)的字段參數(shù)進(jìn)行計(jì)算,如果你對(duì)業(yè)務(wù)數(shù)據(jù)不夠熟悉,或是業(yè)務(wù)數(shù)據(jù)的口徑不規(guī)范,都很容易出現(xiàn)這種問題,這種情況就需要你進(jìn)行抽樣與數(shù)據(jù)試驗(yàn)了。
a. 字段參數(shù)口徑選用
最簡單辦法就是定位到存在有差異的數(shù)據(jù)源后,觀察具備相同屬性的字段參數(shù)那個(gè)更完整或更準(zhǔn)確,例如一套數(shù)據(jù)集中有兩個(gè)字段參數(shù)可以視為用戶個(gè)體,但是進(jìn)行列統(tǒng)計(jì)時(shí)兩個(gè)數(shù)據(jù)不相等,那么我們就要在原始數(shù)據(jù)集上進(jìn)行排查,看看數(shù)據(jù)缺失的部分是否符合邏輯或是數(shù)據(jù)采集有漏洞,然后結(jié)合業(yè)務(wù)情景或數(shù)據(jù)詳情,來挑選出一個(gè)靠譜的字段參數(shù)用作業(yè)務(wù)指標(biāo)度量計(jì)算,修復(fù)之后呢,也建議找個(gè)地方進(jìn)行備注,特別是數(shù)據(jù)血緣比較復(fù)雜時(shí),便于維護(hù);
b. 指標(biāo)函數(shù)驗(yàn)算
如果對(duì)各種函數(shù)的用法不熟悉,或是某個(gè)BI工具沒用采用傳統(tǒng)的SQL函數(shù),導(dǎo)致你的指標(biāo)度量計(jì)算出錯(cuò)概率也是很大的,一般遇到這種情況,我都是先鎖定到一定范圍的數(shù)據(jù),然后通過一些簡單的函數(shù)加人工算出指標(biāo)值,然后找可行的函數(shù)來加工或調(diào)整出這個(gè)指標(biāo)值,之后再隨機(jī)采樣驗(yàn)證一下是否準(zhǔn)確,如果遇到實(shí)在搞不定的數(shù)據(jù)運(yùn)算或函數(shù)使用,那就問問AI大模型,或者平臺(tái)客服,反正我這邊BI平臺(tái)的語法群里的消息基本沒有停過~
4、下鉆指標(biāo)度量
此項(xiàng)是針對(duì)套娃式函數(shù)運(yùn)算的指標(biāo)場景,即當(dāng)前的指標(biāo)函數(shù)計(jì)算中,用到了其他計(jì)算列或是度量,但這些計(jì)算列或度量本身又是由其他計(jì)算列或度量構(gòu)成,這就意味著引用的下游計(jì)算列或度量一旦有誤,上游指標(biāo)全盤崩壞,這種情況也是排查和修護(hù)中比較惡心的,你得像剝洋蔥一樣一層一層的找問題,好在改完一個(gè)問題后,其他也能變回正常,此類問題修復(fù)可以參考以下決策樹;
5、糾正數(shù)據(jù)采集
針對(duì)用戶行為數(shù)據(jù)采集,如果起初的埋點(diǎn)采集需求沒有寫清楚或開發(fā)驗(yàn)證中有了遺漏,就會(huì)導(dǎo)致進(jìn)行指標(biāo)或用戶行為路徑分析時(shí)缺少關(guān)鍵數(shù)據(jù)或是數(shù)據(jù)對(duì)不上,這就是典型的數(shù)據(jù)采集事故,即上報(bào)完整性有問題、上報(bào)準(zhǔn)確性有問題,如果產(chǎn)品迭代后,相關(guān)埋點(diǎn)沒有及時(shí)迭代更新也會(huì)出現(xiàn)諸如此類的問題。
你以為這種問題是少數(shù)?實(shí)際上很多時(shí)候開發(fā)者完成行為埋點(diǎn)開發(fā)后,業(yè)務(wù)方都沒有仔細(xì)測試驗(yàn)證過,都是簡單看兩眼就好了沒問題了,然后在做數(shù)據(jù)報(bào)表或相關(guān)分析時(shí),才開始查缺補(bǔ)漏找開發(fā)返工或補(bǔ)充,提過行為埋點(diǎn)需求的同學(xué)們,試問自己,每次埋點(diǎn)開發(fā)完后有仔細(xì)測試驗(yàn)收過么?有的話,繼續(xù)保持!
6、培訓(xùn)和交流「交流中」
這一趴從企業(yè)流程管理或是個(gè)人發(fā)展學(xué)習(xí)都是有益的,特別是多個(gè)同學(xué)交叉作業(yè)的情景,無規(guī)范無維護(hù)后續(xù)越亂套我們?cè)诫y受,讓改一套報(bào)表遇到點(diǎn)兒問題都要找半天,真的還不如新建一套報(bào)表來的舒服,所以數(shù)據(jù)采集加工、口徑統(tǒng)一、語法技巧等都是可以多交流的,甚至沉淀內(nèi)部材料或分享都是不錯(cuò)的。
就例如指標(biāo)的函數(shù)加工,之前我為了輸出業(yè)務(wù)的期望指標(biāo),我寫了好幾套計(jì)算列才把結(jié)果套出來了,但是后來請(qǐng)教BI后,對(duì)方只用了兩套語法就把度量指標(biāo)弄出來了,看完后我表示妙啊~
至于現(xiàn)在,基本的數(shù)據(jù)分析或報(bào)表構(gòu)建我都能自助解決,完全不依賴數(shù)據(jù)相關(guān)的同事,同樣的數(shù)據(jù)需求,如果我有時(shí)間的話,別人的還在等數(shù)據(jù)同事那邊的排期,我這邊就開始了,人家開始時(shí),我這邊已經(jīng)結(jié)束了。
三、行為分析的延展應(yīng)用
前文分享了如何進(jìn)行基礎(chǔ)的用戶行為分析,實(shí)際上行為分析的妙用不止于此,如果這些行為數(shù)據(jù)妥善應(yīng)用還能為業(yè)務(wù)帶來不少價(jià)值,如通過機(jī)器深度學(xué)習(xí)構(gòu)建預(yù)測模型、更深入的偏好分析應(yīng)用、異?;驖撛谕{的行為監(jiān)控等。
1、異常行為監(jiān)控
用戶行為異常分析可以幫助業(yè)務(wù)發(fā)現(xiàn)不正常的用戶行為,不同類型的異常行為對(duì)業(yè)務(wù)也會(huì)造成不同程度的威脅或負(fù)面影響,因此可以構(gòu)建一套用戶行為監(jiān)控系統(tǒng)(根據(jù)業(yè)務(wù)需要提需求或接入第三方服務(wù)即可,不是讓你寫代碼哈),根據(jù)不同類型的用戶行為定制相應(yīng)的響應(yīng)策略,這樣可以減少潛在的威脅以提升安全性或用戶行為規(guī)范性,通常來講這些異??梢苑譃閮纱箢?;
一類是用戶不合規(guī)的行為,前者可以通過評(píng)估行為的惡劣程度來進(jìn)行賬號(hào)警告、凍結(jié)等來處理。
另一類則是灰產(chǎn)攻擊,后者的容忍度相對(duì)會(huì)更低,一旦通過行為或其他數(shù)據(jù)確認(rèn)后,就會(huì)進(jìn)行攔截屏蔽或是相關(guān)賬號(hào)封禁處理。
至于這些異常如何識(shí)別,在第一部分的【清晰業(yè)務(wù)規(guī)律與客觀規(guī)律】或第二部分的【如何給數(shù)據(jù)打補(bǔ)丁】都有提過,基本上就是用戶行為異?;蛟O(shè)備屬性異常,那么在發(fā)現(xiàn)問題以后,最好就是將這些異常的特征記錄在案,并通過算法或一些自動(dòng)化手段,融合到異常行為監(jiān)控系統(tǒng)中,一旦發(fā)現(xiàn)符合特征的潛在威脅就提前告警或攔截屏蔽等,并且持續(xù)的優(yōu)化迭代,以減少人工投入的成本。
2、用戶偏好系統(tǒng)
相比于預(yù)測模型,用戶偏好系統(tǒng)大家肯定更熟悉一些,一般可以分成三個(gè)部分,即用戶畫像構(gòu)建、用戶偏好分析、個(gè)性推薦系統(tǒng),這里就不展開一個(gè)個(gè)聊了,其用途與構(gòu)建的思路方法我用表格整理了一下可供參考,如果有興趣可以專門找一下相關(guān)的資料看看;
3、行為預(yù)測模型
行為預(yù)測模型的本質(zhì)是機(jī)器深度學(xué)習(xí)或AI相關(guān)的應(yīng)用,說人話就是不定期的把業(yè)務(wù)數(shù)據(jù)整理好了喂個(gè)算法服務(wù),然后算法根據(jù)數(shù)據(jù)產(chǎn)生一套預(yù)測結(jié)果,然后你把結(jié)果用于業(yè)務(wù)決策或定制化營銷上。
因?yàn)橛?xùn)練模型需要一定成本,所以訓(xùn)練前需要明確有業(yè)務(wù)上的需要,以及有合適的行為數(shù)據(jù)可用于加工后進(jìn)行模型訓(xùn)練,那么具體如何繼續(xù)模型訓(xùn)練我就不展開了,很多人可能疑問這些行為預(yù)測模型具體有什么東西,能起到什么用途,對(duì)此整理了一下五點(diǎn)可供參考;
四、連續(xù)三篇全流程與決策樹總結(jié)
整個(gè)流程事件的步驟與決策方法概括;
三章內(nèi)容整合路書:
感謝耐心閱讀,如果覺得寫的還行,就點(diǎn)贊關(guān)注一下吧,下次更新先通知你~
專欄作家
泡泡,公眾號(hào):即刻UX,人人都是產(chǎn)品經(jīng)理專欄作家。專注產(chǎn)品交互領(lǐng)域的體驗(yàn)設(shè)計(jì)師,擅長思考和UI呈現(xiàn)設(shè)計(jì),喜愛交流探討~
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
湊條評(píng)論