數據的五個特征、三道難題、一種自大
數據是一種客觀存在,是關于事物的事實描述,可通過測量、記錄、發(fā)現等方式去獲得。數據具有無限性、易復制性、非均質性、易腐性和原始性五個特征。數據和信息至關重要,但當下有三道難題困擾著數據健康有序發(fā)展,即數據確權、數據交易和數據要素,一起來看看文章的具體分析吧!
“數據是新石油”(Clive Humby,2006)。如果一定要找出一樣,數據最像的還真是石油。兩者都是重要的戰(zhàn)略資源,都是驅動世界的動力。但數據只是數據,它不是其它任何東西。
一、五個特征
數據是一種客觀存在,是關于事物的事實描述,可通過測量、記錄、發(fā)現等方式去獲得。數據具有無限性、易復制性、非均質性、易腐性和原始性五個特征。
1. 無限性
與實物不同,數據不會因使用而耗盡,反而是因使用而產生,會不斷被創(chuàng)造,會越來越多。“數據將成為最基本的客觀產物,無論做什么,我們都在產生數據”(Paul Sonderegger,2017)。根據DASA R&T《2016-2045年新興科技趨勢》,全球新產生的數據量大約每兩年翻一番。這堪稱大數據摩爾定律,數據大爆炸是必然。
2. 易復制性
數據可以快速地以近乎零成本的方式進行復制,可供多人同時使用,可多次循環(huán)使用,一個人的使用可以不排斥和妨礙別人對其使用,不同人之間在使用上不存在直接的利益沖突。易復制性使得數據具有一定程度的非競爭性和非排他性,但數據不是公共品,有公共數據、企業(yè)數據和個人數據之分。
3. 非均質性
《潛伏》中謝若林有句話:“現在兩根金條放在這兒,你告訴我哪一根是高尚的,哪一根是齷齪的?”這說明了一個道理——金條是均質的,兩根金條有著同等的價值表現。均質性普遍存在,例如出廠的商品、油電氣等能源。而數據是非均質的,一比特數據跟另一比特數據所包含的價值完全不同,同一份數據對不同人的價值也不一樣。正如王欽敏(2023)所說:“數據價值因使用對象而異,因應用場景而異,因專業(yè)化數據質量標準而異?!?/p>
4. 易腐性
數據是一種易腐品,會隨著時間的流逝而迅速貶值。根據IBM(2015)數據,60%的非結構化數據在幾毫秒內就失去真正價值。這意味著,數據的價值很大程度體現在時效性上,超過一半的數據在產生的那一刻就不再有價值,我們可稱之為“一秒鐘定律”。能得到分析處理并產生實際效用的數據則更少。全球90%的數據從未得到分析使用(IBM,2015;DASA R&T,2016)。2020年被創(chuàng)建或復制的數據中,只有不到2%被保存并保留到2021年(來源:IDC)。
5. 原始性
數據是原始的,本身并沒有意義,只有對它進行處理分析,才能轉變成對人們有用的信息。如果說數據是新石油,那么分析就是內燃機。信息是數據提煉后的產物;信息經人腦加工后形成知識,知識具有主觀性;數據、信息和知識是歷史的,而智慧是關于未來的,是人們運用知識做出決策和判斷的能力。
對數據、信息、知識和智慧之間的關系,福特漢姆大學Zeleny教授(1987)提出了DIKW金字塔模型(如下圖所示),從底層到頂層依次是:
- 數據(Data):Know nothing,一無所知;
- 信息(Information):Know what,知道是什么;
- 知識(Knowledge):Know how,知道怎么做;
- 智慧(Wisdom):Know why,知道為什么。
圖 DIKW金字塔模型
二、三道難題
一個人和周圍人的差距主要在于掌握信息、理解信息和運用信息的能力不同。數據和信息至關重要。但當下有三道難題困擾著數據健康有序發(fā)展,即數據確權、數據交易和數據要素。我們要迎難而上、敢于作為,以極大的勇氣和智慧破解一切困難。
1. 數據確權
關云長身在曹營心在漢。對物理存在的身體之歸屬,我們比較容易判斷;而內心和靈魂是縹緲不定的,具有不確定性、隱秘性和多元性,不乏同時屬于多個主體的情況。數據與之類似,人們很難清晰判定它屬于誰,很難對其進行有效的物理切割和合理的權利分配。確權的復雜性與數據本身的特征有關,也與權利主體的多樣性有關。數據鏈條涉及多個參與者,他們缺一不可且無法單獨發(fā)揮作用,具有不同的訴求。加之,數據的價值密度低,所產生的效益難以清晰衡量,這使得數據確權的成本極高。
2. 數據交易
交易是一種互利互惠的行為,是人類社會中最具自發(fā)性和最具積極性的活動。唯有雙方都從中獲益,交易才會發(fā)生。對數據而言,交易則是一個難題。聯合國貿發(fā)會議(2019)指出:“數據具有重要的使用(或濫用)價值,但不像大多數經濟商品那樣具有交換價值?!爆F實中的交易一般具有明確的價格,是可重復、可預期的。例如,商店把明碼標價的奶茶重復售賣給不同的消費者,消費者獲得的效用是可預期的——止渴、美味、社交。數據非均質、價值不易衡量、定價困難、預期效用難以管理、有“搭便車”風險……這都是數據交易中要面對的問題。
3. 數據要素
生產要素是人們用來生產商品和勞務所必備的基本資源。它促進生產,但不會成為產品和勞務的一部分,也不會因生產過程而發(fā)生顯著變化。新古典學派創(chuàng)始人馬歇爾在其名著《經濟學原理》(1890)中提出了生產要素四元論,即土地、勞動、資本和企業(yè)家才能。梅宏院士指出(2023):“把數據確立為重要的生產要素是中國的首創(chuàng)?!比欢诮洕鷮W上定義數據生產要素是一件困難的事情,尚未看到有影響力和說服力的成果,迫切需要經濟學家們加緊研究。
三、避免大數據自大
提起數據挖掘的經典案例,很多人會想到“啤酒加尿布”和谷歌流感趨勢。實際上前者是一個故事,早在1992年就已出現,并沒有真正發(fā)生過;后者曾提前預測出流感到來,不過因后來的準確性太低而早已被關閉。
數據的重要性毋庸置疑。人們喜歡在“數據”之前加一個“大”字,以彰顯非同尋常。人們也時常陷入“大數據自大(big data hubris)”的誤區(qū)。數據能解決很多問題,但有局限性,通過數據難以預測突變。一只歲月靜好的豬,無法通過既往數據預測出春節(jié)的黑天鵝;馬車的出行數據,可以使人們獲得“一匹更快的馬”,但不能使人們發(fā)明出汽車。數據是企業(yè)的競爭優(yōu)勢,但不是萬能的。一個好的APP不會因有歷史數據就能高枕無憂,它時刻受到創(chuàng)新者的挑戰(zhàn),只能“各領風騷僅幾年”;創(chuàng)業(yè)者哪怕沒有數據、沒有積累,也可以推出創(chuàng)新產品,獲得用戶,取得成功。從這個角度上說,沒有數據也不是不行。
大數據時代,“要相關,不要因果”被奉為圭臬?!瓣P鍵是人的分析推理找出為什么兩件事物同時或相繼出現,找對了理由才是新知識或新發(fā)現的規(guī)律,相關性本身并沒有多大價值”(李國杰,2015)。只信“數”不如無“數”。我們要綜合運用實驗觀察、邏輯演繹、歸納提煉等科學方法,探究事物之間的關系和規(guī)律,才能挖掘出有價值的信息和結論。
我們重視數據,根本上不是因為數據本身重要,而是尊重客觀世界和客觀規(guī)律的實事求是精神重要,數據即事實。正如李國杰院士(2015)所言:“重視數據就是強調用事實說話、按理性思維的科學精神?!?/p>
作者:閆德利
來源公眾號:騰訊研究院(ID:cyberlawrc),騰訊研究院是騰訊公司設立的社會科學研究機構。
本文由人人都是產品經理合作媒體 @騰訊研究院 授權發(fā)布,未經許可,禁止轉載。
題圖來自 Pixabay,基于 CC0 協議
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
- 目前還沒評論,等你發(fā)揮!