什么是“軟數(shù)據(jù)”?
軟數(shù)據(jù),那些不易量化、依賴主觀判斷的信息,如消費(fèi)者信心指數(shù)和專家預(yù)測,與硬數(shù)據(jù)如GDP增長率和失業(yè)率形成鮮明對比。本文深入剖析軟數(shù)據(jù)的來源、特點(diǎn)及其在數(shù)據(jù)分析中的關(guān)鍵作用,探討如何將這些易變、主觀的信息轉(zhuǎn)化為可信賴的洞察。
由比爾恩門編寫的《數(shù)據(jù)湖倉》這本書中,除了提到數(shù)據(jù)湖倉是下一代數(shù)據(jù)倉庫和數(shù)據(jù)湖,目的是滿足復(fù)雜多變的現(xiàn)代信息系統(tǒng)的需求。還提到了數(shù)據(jù)質(zhì)量的重要性,通過檢查輸入錯(cuò)誤、解決鍵的非兼容性問題以及維護(hù)良好的文檔編制來提高數(shù)據(jù)的質(zhì)量和可信度。
進(jìn)入到數(shù)據(jù)湖倉的數(shù)據(jù)本質(zhì)上來說都是可信的,如果數(shù)據(jù)不真實(shí)不準(zhǔn)確,理論來說就不應(yīng)該把這些數(shù)據(jù)存入到數(shù)據(jù)湖倉中。
這里面就提到一個(gè)概念,如果我們接觸到結(jié)構(gòu)化數(shù)據(jù)、文本數(shù)據(jù)和物聯(lián)網(wǎng)生成的數(shù)據(jù)時(shí),通常不會(huì)對數(shù)據(jù)的真實(shí)性產(chǎn)生質(zhì)疑,這部分?jǐn)?shù)據(jù)容易量化、約定俗成的、且有固定的計(jì)算公式的數(shù)據(jù)就統(tǒng)稱為“硬數(shù)據(jù)”(hard data)
當(dāng)然,除了這部分可信的數(shù)據(jù)外,絕大部分?jǐn)?shù)據(jù)是需要進(jìn)行真實(shí)性的確認(rèn),我們就稱為“軟數(shù)據(jù)”(soft data)。軟數(shù)據(jù)是指那些不易量化、沒有固定計(jì)算公式、主要依賴于主觀判斷和觀察得到的信息和數(shù)據(jù)。這些數(shù)據(jù)通常來自調(diào)查問卷、專家評(píng)估、媒體報(bào)道等,與硬數(shù)據(jù)相對,后者主要包括官方統(tǒng)計(jì)數(shù)據(jù)、財(cái)務(wù)報(bào)表等具體的數(shù)字信息。比爾恩門認(rèn)為軟數(shù)據(jù)主要是指來自電子表格、互聯(lián)網(wǎng)或政府的數(shù)據(jù)。這部分?jǐn)?shù)據(jù)需要對其真實(shí)性、完整性進(jìn)行確認(rèn),確認(rèn)完成后才能存入湖倉的基礎(chǔ)數(shù)據(jù)中。
從書中去理解什么是軟數(shù)據(jù)確實(shí)有點(diǎn)費(fèi)勁,原因就是太多的名詞導(dǎo)致我們在概念上容易混淆,其次是這些名詞定義如果沒有普及拉通的前提下,很容易雞同鴨講,無法讓對方理解你到底在表達(dá)什么意思。那么接下來我就嘗試著理解一下,比爾恩門對于軟數(shù)據(jù)來源的定義:
1,電子表格數(shù)據(jù)。我們經(jīng)常會(huì)將電子表格數(shù)據(jù)作為導(dǎo)入導(dǎo)出,初始化到系統(tǒng)中去。但是,我們并不能確定電子表格里面的數(shù)據(jù)是否真實(shí)可靠,因?yàn)樘顚懙倪^程中,你并不清楚填寫的人到底有沒有填寫對應(yīng)正確的填寫內(nèi)容。
其次,電子表格還存在一個(gè)問題,就是沒有可用可靠的元數(shù)據(jù)。雖然表格包含列和行,但是很難對表格的上下文情景進(jìn)行關(guān)聯(lián)。比方說1977,是一個(gè)數(shù)字,但是它到底代表1977年,還是1977個(gè),還是1977萬……所以,表格里面的1977如果缺少了上下文情景,則毫無意義。所以我們在提取文本數(shù)據(jù)的時(shí)候,通過文本ETL,一個(gè)關(guān)鍵點(diǎn)就是能否獲取數(shù)據(jù)的上下文情境。
2,互聯(lián)網(wǎng)數(shù)據(jù)。則更是五花八門了,雖然現(xiàn)在對于互聯(lián)網(wǎng)數(shù)據(jù)以及規(guī)避了很多涉及到個(gè)人隱私的問題,但是大部分我們獲取到互聯(lián)網(wǎng)的數(shù)據(jù)都是一次性的,如果互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行了更新,那么這部分?jǐn)?shù)據(jù)的時(shí)效性則無法保證?;ヂ?lián)網(wǎng)的數(shù)據(jù)由于沒有準(zhǔn)確的來源,或者由于帶有很強(qiáng)的個(gè)人主觀性,往往就會(huì)被其他人質(zhì)疑。
3,政府?dāng)?shù)據(jù)。政府?dāng)?shù)據(jù)為什么也被納入到“軟數(shù)據(jù)”里面了呢?政府?dāng)?shù)據(jù)一般都應(yīng)該是可信的數(shù)據(jù),但是我理解比爾恩門想要表達(dá)的就是這類數(shù)據(jù),實(shí)際也存在一定的欺騙性,或者說這類數(shù)據(jù)也有可能失真。
比方說披露的某企業(yè)的資產(chǎn)現(xiàn)金流在某季度大幅的增長,我們?nèi)绻R(shí)單方面看到這些數(shù)據(jù),或許會(huì)認(rèn)為該企業(yè)的生產(chǎn)經(jīng)營狀況相比較之前是有所增長的。雖然這個(gè)結(jié)果也是真實(shí)的,但是往往我們忽略了整個(gè)財(cái)報(bào)隱藏的一些問題?;蛟S該企僅僅只是通過變賣固定資產(chǎn),變賣手頭上的一些資產(chǎn)導(dǎo)致的現(xiàn)金流增長,實(shí)際的主營業(yè)務(wù)收入還是持續(xù)下降的。
從我們對待數(shù)據(jù)的真實(shí)性角度來看,在數(shù)據(jù)進(jìn)入湖倉之前,都應(yīng)該進(jìn)行確認(rèn),它們的可信度。從“軟數(shù)據(jù)”到“硬數(shù)據(jù)”的過程,一定是去偽存真的過程。
- 軟數(shù)據(jù)是如何進(jìn)行計(jì)算的,究竟進(jìn)行了哪些計(jì)算?
- 在收集和計(jì)算的過程中,選擇了哪些數(shù)據(jù),排除了哪些數(shù)據(jù)?
- 什么時(shí)候收集的數(shù)據(jù),數(shù)據(jù)什么時(shí)候獲取的?又計(jì)劃在什么時(shí)候更新的?
- 在互聯(lián)網(wǎng)上找到的數(shù)據(jù),它的來源是什么?
- 誰進(jìn)行了計(jì)算?在哪里進(jìn)行了計(jì)算?
最后可以舉一個(gè)簡單的例子,對軟數(shù)據(jù)和硬數(shù)據(jù)進(jìn)行一個(gè)概念上的定義。一個(gè)股市的投資者和分析師通常會(huì)結(jié)合軟數(shù)據(jù)和硬數(shù)據(jù)來做出決策。例如,在評(píng)估股市趨勢時(shí),除了關(guān)注公司的財(cái)報(bào)數(shù)據(jù)(硬數(shù)據(jù)),也會(huì)參考市場情緒、行業(yè)趨勢等(軟數(shù)據(jù))。
總之,軟數(shù)據(jù)雖然存在局限性,但在數(shù)據(jù)分析中扮演著重要的角色。理解軟數(shù)據(jù)的特點(diǎn)和局限性,能幫助我們更好地解讀數(shù)據(jù),做出決策。
本文由人人都是產(chǎn)品經(jīng)理作者【老司機(jī)聊數(shù)據(jù)】,微信公眾號(hào):【老司機(jī)聊數(shù)據(jù)】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評(píng)論,等你發(fā)揮!