什么是“軟數(shù)據(jù)”?

0 評(píng)論 383 瀏覽 0 收藏 7 分鐘
🔗 产品经理的不可取代的价值是能够准确发现和满足用户需求,把需求转化为产品,并协调资源推动产品落地,创造商业价值。

軟數(shù)據(jù),那些不易量化、依賴主觀判斷的信息,如消費(fèi)者信心指數(shù)和專家預(yù)測,與硬數(shù)據(jù)如GDP增長率和失業(yè)率形成鮮明對比。本文深入剖析軟數(shù)據(jù)的來源、特點(diǎn)及其在數(shù)據(jù)分析中的關(guān)鍵作用,探討如何將這些易變、主觀的信息轉(zhuǎn)化為可信賴的洞察。

由比爾恩門編寫的《數(shù)據(jù)湖倉》這本書中,除了提到數(shù)據(jù)湖倉是下一代數(shù)據(jù)倉庫和數(shù)據(jù)湖,目的是滿足復(fù)雜多變的現(xiàn)代信息系統(tǒng)的需求。還提到了數(shù)據(jù)質(zhì)量的重要性,通過檢查輸入錯(cuò)誤、解決鍵的非兼容性問題以及維護(hù)良好的文檔編制來提高數(shù)據(jù)的質(zhì)量和可信度。

進(jìn)入到數(shù)據(jù)湖倉的數(shù)據(jù)本質(zhì)上來說都是可信的,如果數(shù)據(jù)不真實(shí)不準(zhǔn)確,理論來說就不應(yīng)該把這些數(shù)據(jù)存入到數(shù)據(jù)湖倉中。

這里面就提到一個(gè)概念,如果我們接觸到結(jié)構(gòu)化數(shù)據(jù)、文本數(shù)據(jù)和物聯(lián)網(wǎng)生成的數(shù)據(jù)時(shí),通常不會(huì)對數(shù)據(jù)的真實(shí)性產(chǎn)生質(zhì)疑,這部分?jǐn)?shù)據(jù)容易量化、約定俗成的、且有固定的計(jì)算公式的數(shù)據(jù)就統(tǒng)稱為“硬數(shù)據(jù)”(hard data)

當(dāng)然,除了這部分可信的數(shù)據(jù)外,絕大部分?jǐn)?shù)據(jù)是需要進(jìn)行真實(shí)性的確認(rèn),我們就稱為“軟數(shù)據(jù)”(soft data)。軟數(shù)據(jù)是指那些不易量化、沒有固定計(jì)算公式、主要依賴于主觀判斷和觀察得到的信息和數(shù)據(jù)。這些數(shù)據(jù)通常來自調(diào)查問卷、專家評(píng)估、媒體報(bào)道等,與硬數(shù)據(jù)相對,后者主要包括官方統(tǒng)計(jì)數(shù)據(jù)、財(cái)務(wù)報(bào)表等具體的數(shù)字信息。比爾恩門認(rèn)為軟數(shù)據(jù)主要是指來自電子表格、互聯(lián)網(wǎng)或政府的數(shù)據(jù)。這部分?jǐn)?shù)據(jù)需要對其真實(shí)性、完整性進(jìn)行確認(rèn),確認(rèn)完成后才能存入湖倉的基礎(chǔ)數(shù)據(jù)中。

從書中去理解什么是軟數(shù)據(jù)確實(shí)有點(diǎn)費(fèi)勁,原因就是太多的名詞導(dǎo)致我們在概念上容易混淆,其次是這些名詞定義如果沒有普及拉通的前提下,很容易雞同鴨講,無法讓對方理解你到底在表達(dá)什么意思。那么接下來我就嘗試著理解一下,比爾恩門對于軟數(shù)據(jù)來源的定義:

1,電子表格數(shù)據(jù)。我們經(jīng)常會(huì)將電子表格數(shù)據(jù)作為導(dǎo)入導(dǎo)出,初始化到系統(tǒng)中去。但是,我們并不能確定電子表格里面的數(shù)據(jù)是否真實(shí)可靠,因?yàn)樘顚懙倪^程中,你并不清楚填寫的人到底有沒有填寫對應(yīng)正確的填寫內(nèi)容。

其次,電子表格還存在一個(gè)問題,就是沒有可用可靠的元數(shù)據(jù)。雖然表格包含列和行,但是很難對表格的上下文情景進(jìn)行關(guān)聯(lián)。比方說1977,是一個(gè)數(shù)字,但是它到底代表1977年,還是1977個(gè),還是1977萬……所以,表格里面的1977如果缺少了上下文情景,則毫無意義。所以我們在提取文本數(shù)據(jù)的時(shí)候,通過文本ETL,一個(gè)關(guān)鍵點(diǎn)就是能否獲取數(shù)據(jù)的上下文情境。

2,互聯(lián)網(wǎng)數(shù)據(jù)。則更是五花八門了,雖然現(xiàn)在對于互聯(lián)網(wǎng)數(shù)據(jù)以及規(guī)避了很多涉及到個(gè)人隱私的問題,但是大部分我們獲取到互聯(lián)網(wǎng)的數(shù)據(jù)都是一次性的,如果互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行了更新,那么這部分?jǐn)?shù)據(jù)的時(shí)效性則無法保證?;ヂ?lián)網(wǎng)的數(shù)據(jù)由于沒有準(zhǔn)確的來源,或者由于帶有很強(qiáng)的個(gè)人主觀性,往往就會(huì)被其他人質(zhì)疑。

3,政府?dāng)?shù)據(jù)。政府?dāng)?shù)據(jù)為什么也被納入到“軟數(shù)據(jù)”里面了呢?政府?dāng)?shù)據(jù)一般都應(yīng)該是可信的數(shù)據(jù),但是我理解比爾恩門想要表達(dá)的就是這類數(shù)據(jù),實(shí)際也存在一定的欺騙性,或者說這類數(shù)據(jù)也有可能失真。

比方說披露的某企業(yè)的資產(chǎn)現(xiàn)金流在某季度大幅的增長,我們?nèi)绻R(shí)單方面看到這些數(shù)據(jù),或許會(huì)認(rèn)為該企業(yè)的生產(chǎn)經(jīng)營狀況相比較之前是有所增長的。雖然這個(gè)結(jié)果也是真實(shí)的,但是往往我們忽略了整個(gè)財(cái)報(bào)隱藏的一些問題?;蛟S該企僅僅只是通過變賣固定資產(chǎn),變賣手頭上的一些資產(chǎn)導(dǎo)致的現(xiàn)金流增長,實(shí)際的主營業(yè)務(wù)收入還是持續(xù)下降的。

從我們對待數(shù)據(jù)的真實(shí)性角度來看,在數(shù)據(jù)進(jìn)入湖倉之前,都應(yīng)該進(jìn)行確認(rèn),它們的可信度。從“軟數(shù)據(jù)”到“硬數(shù)據(jù)”的過程,一定是去偽存真的過程。

  • 軟數(shù)據(jù)是如何進(jìn)行計(jì)算的,究竟進(jìn)行了哪些計(jì)算?
  • 在收集和計(jì)算的過程中,選擇了哪些數(shù)據(jù),排除了哪些數(shù)據(jù)?
  • 什么時(shí)候收集的數(shù)據(jù),數(shù)據(jù)什么時(shí)候獲取的?又計(jì)劃在什么時(shí)候更新的?
  • 在互聯(lián)網(wǎng)上找到的數(shù)據(jù),它的來源是什么?
  • 誰進(jìn)行了計(jì)算?在哪里進(jìn)行了計(jì)算?

最后可以舉一個(gè)簡單的例子,對軟數(shù)據(jù)和硬數(shù)據(jù)進(jìn)行一個(gè)概念上的定義。一個(gè)股市的投資者和分析師通常會(huì)結(jié)合軟數(shù)據(jù)和硬數(shù)據(jù)來做出決策。例如,在評(píng)估股市趨勢時(shí),除了關(guān)注公司的財(cái)報(bào)數(shù)據(jù)(硬數(shù)據(jù)),也會(huì)參考市場情緒、行業(yè)趨勢等(軟數(shù)據(jù))。

總之,軟數(shù)據(jù)雖然存在局限性,但在數(shù)據(jù)分析中扮演著重要的角色。理解軟數(shù)據(jù)的特點(diǎn)和局限性,能幫助我們更好地解讀數(shù)據(jù),做出決策。

本文由人人都是產(chǎn)品經(jīng)理作者【老司機(jī)聊數(shù)據(jù)】,微信公眾號(hào):【老司機(jī)聊數(shù)據(jù)】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請登錄
  1. 目前還沒評(píng)論,等你發(fā)揮!
专题
13911人已学习12篇文章
4P指产品(Product)、定价(Price)、渠道(Place)、宣传(Promotion)。本专题的文章分享了解读4P营销理论。
专题
13198人已学习14篇文章
好的产品是对人性的窥视,无论是做产品,做运营,懂点心理学还是很有帮助的。本专题的文章分享了消费者心理学。
专题
13268人已学习12篇文章
知识管理是什么?通常来看,想理解知识管理,可以从业务、管理、实施等视角切入。本专题的文章分享了如何做知识管理。
专题
13237人已学习14篇文章
各种大模型和AI绘画的产品层出不穷,在各行业也在尝试进行应用。在这个阶段,AIGC能实现些什么?本专题的文章分享了AIGC的应用。
专题
14460人已学习12篇文章
在职场中,跨部门沟通是一个非常重要的软技能,不管是要完成日常项目,还是接手新的业务,都需要有良好的跨部门沟通能力。本专题的文章分享了如何做好跨部门沟通。
专题
18081人已学习13篇文章
用户体验地图展示的是用户在体验一款产品和服务时的情感流程。本专题的文章分享了如何建立用户体验地图。