美國小姐的年齡,會影響死于暖氣的人數(shù)嗎?
看到題目是不是頓感疑惑?只看表象很容易得出這樣的結(jié)論,需要慎重看待看似相關(guān)的關(guān)系。
前兩天有篇很火的文章《幸好不是所有聰明人都在批發(fā)快感》,批判了目前主流的互聯(lián)網(wǎng)生產(chǎn)力都聚焦在提供用戶“奶頭樂”(Tittytainment),并贊揚了少部分不局限在眼前的茍且,依舊致力于全球人民福祉的公司與項目(友情提示:以IBM為關(guān)鍵字,在文中被cue了12次)。
當(dāng)然,觀點我同意,正如那位熱衷于從0到1的大佬彼得·蒂爾當(dāng)年也抱怨過:“我們想要一輛會飛的汽車,得到的卻是140個字符?!?/p>
被點歪的科技樹,仿佛在把社會引向尼爾·波斯曼所構(gòu)想的“娛樂至死”,并且“文化向技術(shù)投降”的地步。
但原文中為了責(zé)怪大眾科技加深了人們的負(fù)面情緒,引用了如下的論據(jù)和證明方式。
“隨著iPhone的發(fā)布,美國中學(xué)生的孤獨感卻幾乎直線上升”
我無意為iPhone是否真實導(dǎo)致了這種情況的發(fā)生辯護,但單純從文中對于數(shù)據(jù)的使用及論證方式,在未經(jīng)相關(guān)性驗證的情況下,將不特定事件定性成為因果關(guān)系。不僅沒有依據(jù),并且煽動大眾對于事實的認(rèn)知。捎帶使得我對全文的動機產(chǎn)生懷疑(再一次提示,IBM作為正面案例,在文中被cue了12次)。
A導(dǎo)致了B?
作為互聯(lián)網(wǎng)行業(yè)的數(shù)據(jù)分析工作者,日常會處理大量的信息來判斷平臺的健康程度以及制定優(yōu)化辦法。其中,需要解釋兩組波動數(shù)據(jù)間的關(guān)系時,就需要花一定時間去思考數(shù)據(jù)間的關(guān)系是因果,還是相關(guān)?
舉個“因果關(guān)系”的例子:
先前在滴滴運營快車時,當(dāng)其他人為因素(如補貼、司機運力等)不變,天氣狀況是直接影響每天訂單量的原因,呈“微笑曲線”狀。三伏天、冬至或者暴雨的極端天氣,都可以導(dǎo)致訂單量大幅增加;風(fēng)和日麗的天氣大家都愿意走路去公共交通站,使用更便宜的交通方式。
這是通過常理可以推斷,并且基于數(shù)據(jù)驗證后的結(jié)果。
而對于相關(guān)關(guān)系,如果一個事件變化后,另一個事件也隨之發(fā)生變化,但二者不屬于原因和結(jié)果的關(guān)系,則稱它們之間存在“相關(guān)關(guān)系”。存在相關(guān)關(guān)系的兩個事件之間雖然有關(guān)聯(lián),但不屬于因果關(guān)系。
日本經(jīng)濟學(xué)家中室牧子在判斷區(qū)分因果及相關(guān)關(guān)系時,列舉了三條判斷原則:
1. 是否“純屬巧合”?
兩個事件看似有關(guān),其實只是“純屬巧合”。像這樣,兩組數(shù)據(jù)的變化趨勢只是碰巧相似的現(xiàn)象被稱為“偽相關(guān)”。
美國分析師維根·泰勒在他的著作《偽相關(guān)》(SpuriousCorrelations)和網(wǎng)站(tylervigen.com)就介紹了非常多這樣的“偽相關(guān)”關(guān)系。
比如,文章標(biāo)題中提到的“美國小姐的年齡”和“全美死于暖氣的人數(shù)”變化一致,相關(guān)系數(shù)達(dá)到0.87;數(shù)據(jù)高度相關(guān),但這兩個現(xiàn)象間有必然的關(guān)系嗎?
又比如,“美國在科技、太空領(lǐng)域研究的投入”與“用上吊、窒息而自殺的人數(shù)”,相關(guān)系數(shù)更是高達(dá)0.998??茖W(xué)領(lǐng)域每投入1塊錢,就會激勵更多人去上吊。變量數(shù)值盡管相關(guān),但這兩個事實之間又有什么樣的直接關(guān)聯(lián)?
2. 是否存在“第三個變量”
其次,我們必須要質(zhì)疑是否存在同時影響原因和結(jié)果的“第三變量”,或者說是“混雜因素”。它可以把純粹的相關(guān)關(guān)系包裝成因果關(guān)系,干擾人們判斷。
在美國中西部的一個小鎮(zhèn),地方警察局發(fā)現(xiàn)冰淇淋消費量越多,犯罪率就越高。這個例子中,冰淇淋消費量和犯罪率是正相關(guān)的;但并不意味著冰淇凌消費的增多導(dǎo)致了犯罪率的上升,更不可能通過減少冰淇凌的銷售來降低犯罪率。
然而,我們猜測存在某個變量同時和冰淇淋消費量、犯罪率相關(guān)。這個變量可能是室外溫度,當(dāng)室外氣溫變暖,如在夏天,就會有更多犯罪(白天更長,人們多開窗口等);因為天氣變暖,人們更享受吃冰淇凌的樂趣。相對地,在又長又黑暗的寒冬,冰淇凌的消費就減少,同時犯罪也越少。
當(dāng)然這也只是一種基于現(xiàn)實生活的猜測,并無切實的依據(jù)。
3. 是否存在“逆向的因果關(guān)系”
還是拿警察與犯罪的例子。
通常警察多的地區(qū),犯罪案件數(shù)量也多。但是,將犯罪數(shù)量的多少歸結(jié)為警察人數(shù)的增多,難道是在暗示犯罪都是由警察引起的嗎(警察→犯罪)?正好相反,不如說因為某處是犯罪多發(fā)的危險地區(qū),所以部署了大量警力,這么想可能才更合理(犯罪→警察)。
本以為是原因的事件其實是結(jié)果,本以為是結(jié)果的事件其實卻是原因,這種狀態(tài)被稱為“逆向因果關(guān)系”。
iPhone真的導(dǎo)致美國高中生倍感孤獨嗎?
回到文中的例子,iPhone是不是真的會導(dǎo)致美國高中生倍感孤獨?
要得出這個結(jié)論,顯然需要大量的分組實驗(A/B test)進行更深入的研究。
比如,在同一學(xué)校,不用iPhone的高中生分一組,用iPhone的高中生分一組。
用iPhone的學(xué)生中,又需要依據(jù)使用時長,APP使用偏好再進行區(qū)分(要知道Facebook面向高中生,Twitter這樣的社交網(wǎng)絡(luò)仿佛與“孤獨”心理更有關(guān)聯(lián),他們的變化與推出也都是在05-06年間),再去論證上述的結(jié)論。
結(jié)語
在目前沒有足夠數(shù)據(jù)支撐的情況下,我無法下定論。
每個人是一個社會關(guān)系的總和,包含了各類我們稱之為“不確定性”的東西。同時,科技的發(fā)展本身一直在充滿爭議,“科技倫理”(Technical Ethics)在大數(shù)據(jù)逐漸成熟、AI起勢的情況下,越發(fā)重要。
此時,任何企圖把人、心理和科技三者相關(guān)聯(lián)的結(jié)論,尤其需要謹(jǐn)慎對待。
作者:黃嘉偉,專注銀行在移動金融領(lǐng)域內(nèi)的戰(zhàn)略、運營和數(shù)據(jù)咨詢服務(wù)
本文由 @黃嘉偉 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自 Unsplash ,基于 CC0 協(xié)議
文章很棒,闡述的很清晰