從數(shù)據(jù)可視化到交互式數(shù)據(jù)分析
高可視性的可視化項(xiàng)目主要關(guān)注兩個(gè)目的:帶來(lái)靈感和幫助解釋。然而,可視化可以通過(guò)數(shù)據(jù)分析來(lái)增加對(duì)復(fù)雜問(wèn)題的理解,這樣的項(xiàng)目雖然不多見(jiàn),但不代表不重要。
注:本文是作者在參與紐約的Uber數(shù)據(jù)可視化大會(huì)上所做演講的書(shū)面精煉版本,以下是作者原文。
高可視性的可視化項(xiàng)目主要關(guān)注兩個(gè)目的:帶來(lái)靈感和幫助解釋。然而,可視化可以通過(guò)數(shù)據(jù)分析來(lái)增加對(duì)復(fù)雜問(wèn)題的理解,這樣的項(xiàng)目雖然不多見(jiàn),但不代表不重要。
數(shù)據(jù)可視化的三個(gè)主要用途
我知道我這樣總結(jié)可能存在嚴(yán)重簡(jiǎn)化的風(fēng)險(xiǎn)。但是,我發(fā)現(xiàn)根據(jù)主要目的(有意或無(wú)意)確定數(shù)據(jù)可視化的三類主要用途是很有用的,這也有助于我在本文后面闡明一些觀點(diǎn)。
(1)激動(dòng)人心
第一個(gè)用途是激勵(lì)人們,讓人們驚嘆!但這種驚嘆不僅僅是在膚淺的表面,而是真正讓人們獲得更深層次的思考、美感和敬畏??梢暬哂辛钊穗y以置信的力量,可以吸引人們的注意力,同時(shí)也可以將它們引入夢(mèng)幻般的虛擬世界,將抽象概念轉(zhuǎn)化為更有形的存在。
我見(jiàn)過(guò)最具啟發(fā)靈感的一個(gè)完美的可視化例子是我朋友Giorgia Lupi的一個(gè)作品,是他用自己獨(dú)特的手繪風(fēng)格(以及數(shù)字)所創(chuàng)作的杰作。(點(diǎn)擊鏈接可以看看最近在現(xiàn)代藝術(shù)博物館展出的照片check this recent one exposed at MOMA)
(2)解釋現(xiàn)象
第二個(gè)用途是使用圖形圖表來(lái)說(shuō)明一些復(fù)雜的想法,現(xiàn)象或過(guò)程。這是一個(gè)圖形表現(xiàn)的領(lǐng)域:人類是視覺(jué)生物,所以一張圖片有時(shí)勝過(guò)千言萬(wàn)語(yǔ)。
多年來(lái),數(shù)據(jù)新聞為通過(guò)數(shù)據(jù)解釋復(fù)雜事物的藝術(shù)提供了很好的貢獻(xiàn)(參見(jiàn)《紐約時(shí)報(bào)》和《華盛頓郵報(bào)》多年來(lái)所做的令人驚嘆的工作)。同時(shí)這也屬于教育領(lǐng)域,尤其是基于數(shù)字和圖表的科學(xué)教育。
這也是最近一個(gè)被稱為“探索性解釋”(“explorable explanations”)的美麗潮流的領(lǐng)域,由布雷特·維克托(Bret Victor)開(kāi)創(chuàng),并被尼基·凱斯(Nicky Case)等許多了不起的人推廣開(kāi)來(lái)。
(3)分析問(wèn)題
第三個(gè)用途是從數(shù)據(jù)中提取信息,用來(lái)解釋問(wèn)題同時(shí)增加對(duì)一些有趣現(xiàn)象的理解。當(dāng)然,解釋性可視化也有助于人們理解某些事物。但這里的主要區(qū)別在于,在解釋性的可視化中,作者已經(jīng)知道了可視化的內(nèi)容(在執(zhí)行了一些分析之后),而在分析學(xué)中,可視化的主要價(jià)值是幫助人們第一時(shí)間理解數(shù)據(jù)。
人們已經(jīng)使用了一百萬(wàn)個(gè)名字來(lái)定義此活動(dòng)。最新和最時(shí)尚的名字是數(shù)字科學(xué),更具體地說(shuō)是數(shù)據(jù)科學(xué)的一部分,稱為“探索性數(shù)據(jù)分析”,這是幾十年前偉大的約翰·圖基(John Tukey)發(fā)明的術(shù)語(yǔ)。
簡(jiǎn)單起見(jiàn),我將其稱為:數(shù)據(jù)分析,或者是視覺(jué)數(shù)據(jù)分析,甚至是交互式視覺(jué)數(shù)據(jù)分析,以強(qiáng)調(diào)是可以與之交互的圖形表現(xiàn)(學(xué)術(shù)界和商界也稱之為視覺(jué)分析)。
為何更多地談?wù)摂?shù)據(jù)分析?
這篇文章,以及之前的演講,旨在更好地定義可視化在數(shù)據(jù)分析中的角色,并激發(fā)更多關(guān)于可視化領(lǐng)域正在發(fā)生的事情的討論,遺憾的事,這件事情并沒(méi)有像其他事情那樣引人注目。
但為什么要專注于分析?它有什么特別之處?
我的理由是,數(shù)據(jù)分析是一項(xiàng)基礎(chǔ)的人類技術(shù)活動(dòng),它有可能幫助人們解決重要的社會(huì)和科學(xué)問(wèn)題。更確切地說(shuō),我認(rèn)為數(shù)據(jù)分析很重要。因?yàn)檫@項(xiàng)活動(dòng)可以幫助人們提高對(duì)復(fù)雜現(xiàn)象的理解,從而幫助人們解決重要問(wèn)題。這
是一個(gè)間接但卻重要的聯(lián)系:如果我能更好地理解一個(gè)問(wèn)題,那我找到更好問(wèn)題解決方案的可能性就越大。
世界上不乏有趣而重要的問(wèn)題,是我們希望通過(guò)數(shù)據(jù)分析能更好地理解的。以下是我個(gè)人經(jīng)歷中的一些案例,我在這里描述它們并不一定是因?yàn)樗鼈兪俏覀兡軌蚪鉀Q的最重要的問(wèn)題,而是因?yàn)槲覍?duì)這兩個(gè)案例很熟悉。
(1)監(jiān)測(cè)和認(rèn)識(shí)醫(yī)療事故
在過(guò)去幾年里,我的實(shí)驗(yàn)室一直與一家在紐約市很受歡迎的獨(dú)立新聞工作室ProPublica合作。我們幫助他們篩選了來(lái)自Yelp的大量醫(yī)學(xué)評(píng)論,以識(shí)別和理解人們與醫(yī)生及其服務(wù)之間存在的問(wèn)題。
你要如何才能讓數(shù)以百萬(wàn)計(jì)的評(píng)論變得有意義?如何發(fā)現(xiàn)可疑事件?如何識(shí)別值得關(guān)注的評(píng)論?
事實(shí)證明:即使簡(jiǎn)單如一個(gè)全局的“分面搜索”界面,對(duì)這項(xiàng)任務(wù)也是非常有用的。我們開(kāi)發(fā)了一個(gè)名為RevEx的簡(jiǎn)單工具,它使得我們的合作伙伴能夠監(jiān)測(cè)醫(yī)療事故上取得一些進(jìn)展,并就他們的發(fā)現(xiàn)發(fā)表一些令人關(guān)注的文章。
RevEx。我們開(kāi)發(fā)的一個(gè)交互式數(shù)據(jù)探索工具,幫助ProPublica的查爾斯·奧恩斯坦(Charles Ornstein)從Yelp的數(shù)百萬(wàn)條評(píng)論中篩選信息。
(2)了解詐騙和詐騙者
這是我們最近與Agari公司建立的合作。他們的主要目標(biāo)是追捕騙子并擾亂他們的活動(dòng)。他們收集有關(guān)騙子活動(dòng)極其有趣的數(shù)據(jù),希望利用這些數(shù)據(jù)更好地保護(hù)個(gè)人和企業(yè)免受惡意攻擊。
這非常重要!與他們交談,我更好地了解到詐騙對(duì)一些人造成了多么糟糕的影響。有些人的生活因?yàn)轵_子的不法行為而被徹底毀掉了,這不僅僅是收件箱中收到垃圾郵件而已。
關(guān)于“理解”
你注意到了嗎?當(dāng)我們談?wù)摂?shù)據(jù)分析問(wèn)題時(shí),我們經(jīng)常將目標(biāo)描述為“理解”某些東西。然后我們可以假設(shè)數(shù)據(jù)分析的主要目的是通過(guò)數(shù)據(jù)更好地理解某些東西。
現(xiàn)實(shí),數(shù)據(jù)/統(tǒng)計(jì)模型。人類心理模型之間的關(guān)系。
這個(gè)關(guān)系是這樣的:數(shù)據(jù)/模型是我們想要研究的一些現(xiàn)實(shí)的描述。人類對(duì)現(xiàn)實(shí)有一個(gè)心理模型,并使用數(shù)據(jù)/模型來(lái)研究它,以便可以更好地理解它。(這個(gè)概念值得整篇博文,我希望在不久的將來(lái)可以寫(xiě)一篇。)
交互式數(shù)據(jù)分析如何工作?
交互式數(shù)據(jù)分析主要以循環(huán)方式運(yùn)行。你從某個(gè)松散指定的目標(biāo)開(kāi)始,將目標(biāo)轉(zhuǎn)換為一個(gè)或多個(gè)問(wèn)題,組織和分析數(shù)據(jù)來(lái)回答這些問(wèn)題,生產(chǎn)新的問(wèn)題并重新開(kāi)始。
為了更清晰描述這個(gè)過(guò)程,我為這個(gè)過(guò)程梳理了以下步驟:
(1)界定難題
每個(gè)項(xiàng)目都以難題陳述開(kāi)頭。你想解決什么難題?你的最終目標(biāo)是什么?從數(shù)據(jù)分析中獲得的更多理解將如何使你更接近你的目標(biāo)?
(2)生成問(wèn)題
難題說(shuō)明通常太高級(jí)且寬泛,無(wú)法直接轉(zhuǎn)換為數(shù)據(jù)分析操作(這個(gè)問(wèn)題經(jīng)常被忽視且未被充分理解)。通常,需要將難題(隱式地,或者更好地,顯式地)轉(zhuǎn)換為許多數(shù)據(jù)分析問(wèn)題。
(3)收集,轉(zhuǎn)換和熟悉數(shù)據(jù)
有些項(xiàng)目有可用的數(shù)據(jù),而有些則需要一定程度的數(shù)據(jù)搜索或生成。在任何情況下,所有的項(xiàng)目都要求分析人員熟悉內(nèi)容及其含義并執(zhí)行多項(xiàng)轉(zhuǎn)換,既要熟悉數(shù)據(jù)(例如:經(jīng)常對(duì)數(shù)據(jù)進(jìn)行切片,切割和聚合)又要為計(jì)劃進(jìn)行的分析做好準(zhǔn)備。
(4)從數(shù)據(jù)中創(chuàng)建模型
并非所有項(xiàng)目都需要這一步,但有些項(xiàng)目需要。當(dāng)通過(guò)建立模型可以更容易地解答問(wèn)題時(shí),使用統(tǒng)計(jì)建模和機(jī)器學(xué)習(xí)的方法會(huì)很有用。雖然建模人員談?wù)摰拇蟛糠謨?nèi)容只是預(yù)測(cè),但模型對(duì)于探索和生成假設(shè)來(lái)說(shuō)依然是非常強(qiáng)大的工具??梢杂糜诖瞬襟E的方法包括聚類、降維、簡(jiǎn)單回歸和將文本轉(zhuǎn)換為有意義的數(shù)字的各種NLP(自然語(yǔ)言處理)方法。
(5)可視化數(shù)據(jù)和模型
這是眼睛能夠觀察數(shù)據(jù)的一步?,F(xiàn)在,大多數(shù)人在考慮到這個(gè)階段時(shí)會(huì)聯(lián)想到花哨的圖表,但是像表格和列表這種簡(jiǎn)單的表達(dá)方式對(duì)于很多問(wèn)題來(lái)講反而是非常合理的可視化表達(dá)。在這里,從數(shù)據(jù)轉(zhuǎn)換和查詢(或從某些模型)獲得的結(jié)果被轉(zhuǎn)換成我們的眼睛可以消化并能夠理解的內(nèi)容。這是我們所有人,數(shù)據(jù)可視化者熱愛(ài)的一步。
(6)詮釋結(jié)果
一旦結(jié)果生成并以某種視覺(jué)形式呈現(xiàn),就需要有人對(duì)其進(jìn)行解釋。這是至關(guān)重要的一步,也是經(jīng)常被忽視的一步。展示屏幕背后有這樣一個(gè)人,他需要理解所有這些彩色點(diǎn)和數(shù)字的含義。
這是一項(xiàng)復(fù)雜的操作,包括以下步驟:理解如何閱讀圖表,理解圖表針對(duì)感興趣的現(xiàn)象傳達(dá)了什么信息,將問(wèn)題的結(jié)果與問(wèn)題已有的知識(shí)聯(lián)系起來(lái)。注意,這里的詮釋很大程度上受已有知識(shí)的影響。至少包括領(lǐng)域問(wèn)題,數(shù)據(jù)轉(zhuǎn)換過(guò)程,建模和可視化表達(dá)的知識(shí)。這是可視化和分析另一個(gè)經(jīng)常被忽視的方面。
(7)生成推論并引出更多問(wèn)題
所有這些步驟最終會(huì)產(chǎn)生一些新的知識(shí),并且在大多數(shù)情況下,還會(huì)產(chǎn)生額外的問(wèn)題或假設(shè)。這是數(shù)據(jù)分析的一個(gè)有趣特性:它的結(jié)果不僅是答案還有可能是問(wèn)題;當(dāng)我們希望能引出更好更準(zhǔn)確的問(wèn)題。這一步驟有一個(gè)重要點(diǎn)是,可能會(huì)產(chǎn)生不正確的推論。因此并非所有的過(guò)程都必然帶來(lái)積極的結(jié)果,也不是所有的分析都同樣有效。
數(shù)據(jù)分析幾個(gè)重要的方面
我想強(qiáng)調(diào)一下這個(gè)過(guò)程的幾個(gè)重要方面:
(1)這個(gè)過(guò)程不是連續(xù)有序的,而是高度迭代的
雖然我將這些步驟按順序呈現(xiàn),但是真正的過(guò)程根本就不是這樣的。隨著更多的問(wèn)題、需求和限制被理解,人們總是從一個(gè)步驟跳到另一個(gè)步驟,也是高度迭代的一個(gè)過(guò)程。你通常會(huì)先提出一個(gè)最初的問(wèn)題,通過(guò)分析得到一個(gè)答案,并在你完成此過(guò)程時(shí),產(chǎn)生新的問(wèn)題和需求,然后重新開(kāi)始。
(2)有些操作完全是人為的
你注意到了嗎?這個(gè)過(guò)程中相當(dāng)多的步驟完全是人為的(參考上圖中的紅框):界定難題,生成問(wèn)題,解釋結(jié)果,生成推論和新問(wèn)題。這完全是人為操作,而非技術(shù)運(yùn)作。這讓人不禁想問(wèn):我們對(duì)人類如何用數(shù)據(jù)思考了解多少?我們?nèi)绾螖U(kuò)展我們的知識(shí),從而改進(jìn)這個(gè)過(guò)程?
(3)可視化只是流程的一小部分
對(duì)于我們這樣的數(shù)據(jù)可視化人員來(lái)說(shuō),這是重要的觀察結(jié)果。盡管我們非常喜歡可視化這一步,但是我們必須認(rèn)識(shí)到,當(dāng)可視化被用于數(shù)據(jù)分析時(shí),它僅僅代表了多樣化展示集的一小部分。這并不是說(shuō)可視化不重要或不具有挑戰(zhàn)性,但是了解全局更是至關(guān)重要。整個(gè)數(shù)據(jù)分析過(guò)程過(guò)程的有效性取決于上面的所有步驟,而不僅僅是視覺(jué)表現(xiàn)。
交互體現(xiàn)在哪里
你可能已經(jīng)注意到,我到目前為止還沒(méi)有提到交互。
為什么?因?yàn)榻换ルS處可見(jiàn)。每次你告訴你的電腦該做什么,你的電腦會(huì)返回一些信息給你,你就有了某種形式的交互。
下面是我們?cè)跀?shù)據(jù)分析中通常會(huì)執(zhí)行的操作:
- 收集和轉(zhuǎn)換數(shù)據(jù);
- 定義模型或查詢數(shù)據(jù);
- 指定如何表達(dá)結(jié)果(和模型);
- 瀏覽結(jié)果;
- 合成并傳達(dá)收集到的事實(shí)。
所有這些都需要某種形式的直接或間接交互。
直接操作與命令行交互:
當(dāng)我們談?wù)摻换ナ綌?shù)據(jù)分析時(shí),先澄清什么是“交互式”很重要?是什么構(gòu)成了“交互式”用戶界面?
對(duì)于許多人來(lái)說(shuō),交互式可視化只涉及WIMP接口,直接操作、單擊、鼠標(biāo)懸停等。然而命令行界面也是交互式的:用戶告訴計(jì)算機(jī)要做什么,而計(jì)算機(jī)做出相應(yīng)的反響與回應(yīng)。改變的是交互“模態(tài)”,而不單只是對(duì)象是否可交互的。
在我看來(lái),我們應(yīng)該討論的是在數(shù)據(jù)分析系統(tǒng)中直接操作交互和命令行交互的優(yōu)缺點(diǎn)。盡管直接操作的優(yōu)點(diǎn)和缺點(diǎn)在其他地方已經(jīng)詳細(xì)討論過(guò)(NN/g 研究團(tuán)隊(duì)出過(guò)一個(gè)很好的總結(jié)summary),但我們還沒(méi)有很好地理解它在數(shù)據(jù)分析中的作用。大多數(shù)現(xiàn)有系統(tǒng)都依賴于命令行接口。
這是為什么呢?是因?yàn)樗鼈兏行н€是因?yàn)槲覀冞€沒(méi)有發(fā)明更好的接口?
交互式可視化數(shù)據(jù)分析的挑戰(zhàn)
我想通過(guò)強(qiáng)調(diào)幾個(gè)我認(rèn)為與交互式數(shù)據(jù)分析相關(guān)性較大的挑戰(zhàn)來(lái)總結(jié)本文。同時(shí)這也是我認(rèn)為在未來(lái)幾年數(shù)據(jù)分析方面需要取得更多進(jìn)展的地方。
數(shù)據(jù)規(guī)范(思維→數(shù)據(jù)/模型)
當(dāng)我們通過(guò)計(jì)算機(jī)與數(shù)據(jù)交互時(shí),需要做的第一件事就是將我們的問(wèn)題和想法轉(zhuǎn)換成計(jì)算機(jī)能夠讀取的規(guī)范(SQL就是一個(gè)很好的例子)。
這是程序語(yǔ)言和格式發(fā)揮主要作用的地方。有些人可能認(rèn)為,為了向計(jì)算機(jī)發(fā)出指令,必須學(xué)習(xí)某種編程語(yǔ)言,但在實(shí)踐中,許多交互系統(tǒng)使用交互規(guī)范方法,將用戶操作轉(zhuǎn)換成計(jì)算機(jī)能夠理解的語(yǔ)句,這對(duì)于用戶操作來(lái)說(shuō)更自然。
交互式規(guī)范系統(tǒng)做得很好的一個(gè)是Tableau中使用的VizQL語(yǔ)言(VizQL language),它將用戶的選擇轉(zhuǎn)換成系統(tǒng)能夠理解的正式語(yǔ)句,并用于生成查詢和適當(dāng)?shù)目梢暬硎尽?/p>
(譯者注:Tableau:一家美國(guó)專門做交互式數(shù)據(jù)可視化軟件的公司(公司官網(wǎng):https://www.tableau.com/zh-cn))
我們應(yīng)該期望人人都能成為程序員嗎?
這里的一個(gè)相關(guān)問(wèn)題是:“我們是否應(yīng)該期望人人都能成為程序員并學(xué)習(xí)規(guī)范語(yǔ)言才能進(jìn)行數(shù)據(jù)分析?”
我個(gè)人認(rèn)為,對(duì)這一點(diǎn)我們必須以更包容的態(tài)度來(lái)看,并認(rèn)識(shí)到,盡管有很大一部分人可能會(huì)從數(shù)據(jù)分析工具中受益匪淺,但他們沒(méi)有時(shí)間、資源或動(dòng)力去學(xué)習(xí)如何使用規(guī)范化語(yǔ)言。因此,盡管我是R and Jupyter和panda組合等數(shù)據(jù)科學(xué)編程工具的超級(jí)粉絲,但我仍然不確定我們是否應(yīng)該期望每個(gè)人都達(dá)到這種熟練程度,以便對(duì)數(shù)據(jù)進(jìn)行有用的處理。
Trifacta’s Wrangler和Open Refine是兩個(gè)很好的例子,可以讓人們更容易地訪問(wèn)負(fù)責(zé)的數(shù)據(jù)處理,它使人們無(wú)需編寫(xiě)任何代碼即可執(zhí)行大量的數(shù)據(jù)處理。
數(shù)據(jù)呈現(xiàn)(數(shù)據(jù)/模型→眼睛)
一旦從查詢和模型中獲得結(jié)果,下一步是進(jìn)行(可視化的)呈現(xiàn),以便用戶能夠觀察和理解,這是數(shù)據(jù)可視化的范圍。盡管當(dāng)大多數(shù)人聽(tīng)到“數(shù)據(jù)可視化”時(shí),他們想到的是色彩豐富的花哨圖形,但是期望簡(jiǎn)單的數(shù)據(jù)圖表成為檢驗(yàn)結(jié)果的有效方法完全是恰當(dāng)?shù)?。我發(fā)現(xiàn)個(gè)有趣的點(diǎn),我們使用“可視化”這個(gè)詞來(lái)表示復(fù)雜的圖形,但實(shí)際上簡(jiǎn)單的表格也和其他圖表一樣屬于可視化。
多年來(lái)我發(fā)現(xiàn),當(dāng)我們談?wù)摂?shù)據(jù)可視化時(shí),我們經(jīng)常認(rèn)為選擇使用哪種圖形圖表呈現(xiàn)是最重要的。然而,決定可視化的內(nèi)容通常與決定如何可視化一樣重要,甚至更重要。
舉個(gè)簡(jiǎn)單例子:有時(shí),當(dāng)信息內(nèi)容表達(dá)的是百分比而不是絕對(duì)值時(shí),圖表能更好地傳達(dá)問(wèn)題。我認(rèn)為,如果我們能夠更好地理解和描述數(shù)據(jù)轉(zhuǎn)換在可視化中所扮演的角色,那將是非常有用的。我的印象是,在很多情況下,我們往往過(guò)分強(qiáng)調(diào)圖形化的感知,然而真正的價(jià)值點(diǎn)在數(shù)據(jù)內(nèi)容部分。
“為了對(duì)數(shù)據(jù)分析有用,可視化需要多么花哨?”
這里要討論的另外一個(gè)問(wèn)題是:“為了對(duì)數(shù)據(jù)分析有用,可視化需要多么花哨?”
我對(duì)精心設(shè)計(jì),時(shí)尚,充滿吸引力的可視化項(xiàng)目十分喜愛(ài),色彩及像素的美麗讓我第一時(shí)間愛(ài)上可視化。但是,當(dāng)我們的主要目標(biāo)是數(shù)據(jù)分析時(shí),我不確定這能產(chǎn)生多大價(jià)值。更準(zhǔn)確地說(shuō),我確實(shí)認(rèn)為美學(xué)在可視化中扮演著重要的角色,但我不確定在為數(shù)據(jù)可視化創(chuàng)造新的隱喻方面我們還需要多少創(chuàng)新。
根據(jù)我的經(jīng)驗(yàn)(基于原型研究超過(guò)10年)大多數(shù)可視化問(wèn)題可以通過(guò)一些圖表來(lái)解決。很少情況下,需要你去想出一個(gè)全新的表達(dá)方式。像條形圖、折線圖、散點(diǎn)圖、透視表等“圖形化主力”真的很難被替代!
然而,這并不意味著進(jìn)行有效地?cái)?shù)據(jù)可視化是容易的! 真正困難的是,如何巧妙、有效和創(chuàng)新地去使用、調(diào)整和組合這些圖表,這比人們?cè)敢獬姓J(rèn)的要困難得多。在某種程度上,要想在可視化方面取得進(jìn)展,創(chuàng)新和教育工作應(yīng)該更多地關(guān)注深度,而不是廣度。我們需要更多地了解如何能夠更好地使用現(xiàn)有的方法,而不是尋找更多的隱喻和技術(shù)(盡管我們也需要不斷創(chuàng)新,嘗試一些瘋狂的東西)。
數(shù)據(jù)認(rèn)知(眼睛→思維)
這一步至關(guān)重要,但往往被忽視。一旦將結(jié)果表達(dá)出來(lái),人們需要能夠解釋并理解它們的含義。這是一個(gè)需要將若干知識(shí)連接到一起的復(fù)雜的認(rèn)知過(guò)程。
想想看:為了有效地對(duì)建模和可視化的結(jié)果進(jìn)行推論,我們需要知道什么?
至少,你需要能夠理解數(shù)據(jù)表達(dá)和模型,理解它們與它們所代表的現(xiàn)實(shí)世界實(shí)體的聯(lián)系。最后,也是最重要的,是如何與你頭腦中已有的知識(shí)聯(lián)系起來(lái)。讓我們關(guān)注可視化和模型吧。
“人們能夠理解和信任他們的可視化和模型嗎?”
這里的重要問(wèn)題是:“人們能夠理解并信任他們的模型嗎?”
為了有效地解釋可視化,您首先需要理解視覺(jué)隱喻,其次視覺(jué)隱喻本身也需要以盡可能不模糊/肯定的方式傳達(dá)信息。不幸的是,并不是所有的視覺(jué)表現(xiàn)都是這樣的。
一個(gè)值得注意的例子是多維投影(使用諸如t-SNE和MDS之類的算法),它使用了某種直觀的隱喻(距離遠(yuǎn)近代表相似性),但也模棱兩可得令人難以接受。下面是一個(gè)投影的例子,顯示了從IMDB評(píng)論中提取的單詞之間的相似性。
t-SNE投影的例子
你看到這些展示的時(shí)候你學(xué)到了什么?當(dāng)你碰巧學(xué)到了一些東西時(shí)……你能確定你所學(xué)到的東西代表了某種真實(shí)的現(xiàn)象,而不僅僅是統(tǒng)計(jì)上的巧合嗎?
當(dāng)我們看模型的解釋時(shí),我們面臨一個(gè)更大的問(wèn)題。機(jī)器學(xué)習(xí)方法使用非常復(fù)雜的程序?qū)?shù)據(jù)轉(zhuǎn)換成更抽象的結(jié)構(gòu),但在這個(gè)過(guò)程中,我們完全喪失了理解其內(nèi)容、質(zhì)量和可信性的能力,建立“主題模型”。這是噩夢(mèng)。
該方法將文檔集合輸入,并返回作為單詞集捕獲的一組“主題”。問(wèn)題是,大多數(shù)時(shí)候返回的內(nèi)容根本沒(méi)有任何意義。以下是我們實(shí)驗(yàn)室最近做的一個(gè)項(xiàng)目的例子。
以下是從Vox的一組文章中摘錄出來(lái)的一些主題:
主題建模生成的主題示例(使用LDA方法)
你覺(jué)得怎么樣?是否有意義呢?你能從中提取出有用的東西嗎?
憑心而論,這個(gè)方法返回了很多更有意義的主題,但是我選擇了這種更戲劇化的方式說(shuō)明這個(gè)問(wèn)題。
你會(huì)怎么處理這個(gè)?這是一個(gè)重要的問(wèn)題,不僅需要ML(Machine Learning)專家的合作,也需要和強(qiáng)感知能力的人合作,這樣這些方法才能更有效地產(chǎn)生一個(gè)能夠真正增強(qiáng)人類心智的人類技術(shù)系統(tǒng)。
建議
我有兩組建議:一組針對(duì)從業(yè)者,一組針對(duì)研究人員。
1. 給從業(yè)者的建議
(1)多關(guān)注(更加相關(guān)的)問(wèn)題
世界上不乏需要解決的相關(guān)問(wèn)題,而數(shù)據(jù)分析可以發(fā)揮重要作用幫助取得進(jìn)展。無(wú)論好壞,數(shù)據(jù)無(wú)處不在,大部分的物理世界都留下了數(shù)據(jù)痕跡,這可以幫助我們更好地理解某些事物。為那些想要解決重要問(wèn)題的人工作或與他們合作。選擇一個(gè)你喜歡的領(lǐng)域并嘗試獲得更好的理解與認(rèn)知。
(2)多一些工具,少一點(diǎn)可視化
如果我們想要提升數(shù)據(jù)分析和可視化的影響力量,并將其交給那些為我們解決重要問(wèn)題的人(如醫(yī)生,氣候科學(xué)家,安全專家),我們需要更多地關(guān)注分析工具而不是可視化。構(gòu)建下一個(gè)令人驚嘆的圖形可能很有趣、有啟發(fā)性甚至在某種程度上會(huì)有用,但最終我認(rèn)為我們需要為其他人構(gòu)建工具,以幫助人們利用數(shù)據(jù)和可視化蘊(yùn)含的全部力量。
(3)公之于眾
我所描述的其實(shí)已經(jīng)發(fā)生了!甚至可能規(guī)模也很大,只是我們看不到。這些項(xiàng)目大多發(fā)生在私營(yíng)企業(yè)的幕后,它們沒(méi)有動(dòng)力對(duì)外展示自己內(nèi)部在做什么,但這種情況正在改變。
如果你剛好在從事數(shù)據(jù)分析項(xiàng)目,請(qǐng)向我們展示是如何完成的!但不要只展示最終產(chǎn)品,希望過(guò)程也能可見(jiàn)。讓我們?cè)谀膫€(gè)環(huán)節(jié)出問(wèn)題了,以及是如何應(yīng)對(duì)問(wèn)題的。
一起看看你們?cè)陧?xiàng)目中遇到的死胡同,也許大家都能從中學(xué)到一些東西。同樣,如果你開(kāi)發(fā)了一個(gè)工具,盡可能讓更多人都用到。你永遠(yuǎn)不知道,某個(gè)人在某個(gè)地方可以使用這個(gè)工具做什么,也許做出了你無(wú)法想象的卓越事件。
2. 給研究人員的建議
(1)開(kāi)發(fā)更好的規(guī)范方法
將人們頭腦中的想法轉(zhuǎn)換成機(jī)器能夠理解的指令仍然是相當(dāng)具有挑戰(zhàn)性的。在編程語(yǔ)言方面已經(jīng)取得了很大的進(jìn)展,但是在不編碼的情況下創(chuàng)建規(guī)范仍然非常具有挑戰(zhàn)性。
近年來(lái)發(fā)明的兩個(gè)很好的交互式規(guī)范系統(tǒng)例子是:Tableau的可視化查詢語(yǔ)言和Trifacta的數(shù)據(jù)轉(zhuǎn)換交互方法。這解決了兩個(gè)非常重要的需求,但也不乏其他需要交互式規(guī)范的情況。例如:規(guī)格化人們對(duì)文本集合能做什么,仍然是非常具有挑戰(zhàn)性的。
(2)開(kāi)發(fā)更多可解譯的方法
正如我上面提到的,解釋是一個(gè)很大的挑戰(zhàn)。正如我上面提到的,解釋是一個(gè)很大的挑戰(zhàn),尤其是當(dāng)我們關(guān)注于旨在與人交互的ML(MachineLearning)方法時(shí),我們首先需要更好地理解解譯是如何工作的,以及解譯與既存知識(shí)和專業(yè)知識(shí)之間的關(guān)系。我們還需要開(kāi)發(fā)更容易理解更靈活的方法,來(lái)接受來(lái)自人工代理的輸入和反饋。
(3)開(kāi)發(fā)數(shù)據(jù)分析的“科學(xué)”
數(shù)據(jù)分析過(guò)程是由一系列復(fù)雜的認(rèn)知過(guò)程構(gòu)成的,我們對(duì)這些認(rèn)知過(guò)程的理解并不十分透徹。
什么因素能促使數(shù)據(jù)分析成功?計(jì)算工具的作用是什么?我們?cè)鯓硬拍鼙苊庀葳?、偏?jiàn)、遺漏等等?
這真的很復(fù)雜!雖然認(rèn)知科學(xué)的一些基礎(chǔ)研究已經(jīng)存在,但還缺少一個(gè)公認(rèn)的模型可以指導(dǎo)設(shè)計(jì)師和工程師開(kāi)發(fā)和評(píng)估復(fù)雜的交互系統(tǒng)進(jìn)行數(shù)據(jù)分析。在這些方面取得進(jìn)展將使我們能夠更好地理解交互式數(shù)據(jù)分析的工作原理,并有希望能指引我們?nèi)绾蝿?chuàng)建更好的工具來(lái)思考分析數(shù)據(jù)。
結(jié)語(yǔ)
在這篇短文中,我認(rèn)為可視化從業(yè)者和研究人員應(yīng)該用更廣泛的視角來(lái)看待他們?cè)跀?shù)據(jù)科學(xué)領(lǐng)域中的所起的作用。可視化專家可以通過(guò)專注于支持人們分析他們的數(shù)據(jù),來(lái)幫助人們解決復(fù)雜和重要的社會(huì)問(wèn)題。
這可以通過(guò):
- 理解可視化是一個(gè)大而復(fù)雜的過(guò)程中的一個(gè)(重要的)步驟;
- 尋求與需要他們幫助的人合作;
- 開(kāi)發(fā)工具讓他們用數(shù)據(jù)做一些了不起的事情。
我希望你能從這篇文章中得到啟發(fā),盡管這篇文章有點(diǎn)長(zhǎng)。我們需要一大批像你這樣的可視化愛(ài)好者來(lái)做一些對(duì)世界有影響的重要工作!
原文鏈接:https://medium.com/@FILWD/from-data-visualization-to-interactive-data-analysis-e24ae3751bf3
譯者:rubyxrli,公眾號(hào):騰訊FiTdesign(ID:FiTdesign2017)
本文來(lái)源于人人都是產(chǎn)品經(jīng)理合作媒體@ 騰訊FITdesign,作者@rubyxrli
題圖來(lái)自Unsplash,基于CC0協(xié)議
web3的到來(lái)會(huì)影響全球支付領(lǐng)域嗎?