從數(shù)據(jù)可視化到交互式數(shù)據(jù)分析
高可視性的可視化項目主要關(guān)注兩個目的:帶來靈感和幫助解釋。然而,可視化可以通過數(shù)據(jù)分析來增加對復(fù)雜問題的理解,這樣的項目雖然不多見,但不代表不重要。
注:本文是作者在參與紐約的Uber數(shù)據(jù)可視化大會上所做演講的書面精煉版本,以下是作者原文。
高可視性的可視化項目主要關(guān)注兩個目的:帶來靈感和幫助解釋。然而,可視化可以通過數(shù)據(jù)分析來增加對復(fù)雜問題的理解,這樣的項目雖然不多見,但不代表不重要。
數(shù)據(jù)可視化的三個主要用途
我知道我這樣總結(jié)可能存在嚴(yán)重簡化的風(fēng)險。但是,我發(fā)現(xiàn)根據(jù)主要目的(有意或無意)確定數(shù)據(jù)可視化的三類主要用途是很有用的,這也有助于我在本文后面闡明一些觀點。
(1)激動人心
第一個用途是激勵人們,讓人們驚嘆!但這種驚嘆不僅僅是在膚淺的表面,而是真正讓人們獲得更深層次的思考、美感和敬畏??梢暬哂辛钊穗y以置信的力量,可以吸引人們的注意力,同時也可以將它們引入夢幻般的虛擬世界,將抽象概念轉(zhuǎn)化為更有形的存在。
我見過最具啟發(fā)靈感的一個完美的可視化例子是我朋友Giorgia Lupi的一個作品,是他用自己獨特的手繪風(fēng)格(以及數(shù)字)所創(chuàng)作的杰作。(點擊鏈接可以看看最近在現(xiàn)代藝術(shù)博物館展出的照片check this recent one exposed at MOMA)
(2)解釋現(xiàn)象
第二個用途是使用圖形圖表來說明一些復(fù)雜的想法,現(xiàn)象或過程。這是一個圖形表現(xiàn)的領(lǐng)域:人類是視覺生物,所以一張圖片有時勝過千言萬語。
多年來,數(shù)據(jù)新聞為通過數(shù)據(jù)解釋復(fù)雜事物的藝術(shù)提供了很好的貢獻(xiàn)(參見《紐約時報》和《華盛頓郵報》多年來所做的令人驚嘆的工作)。同時這也屬于教育領(lǐng)域,尤其是基于數(shù)字和圖表的科學(xué)教育。
這也是最近一個被稱為“探索性解釋”(“explorable explanations”)的美麗潮流的領(lǐng)域,由布雷特·維克托(Bret Victor)開創(chuàng),并被尼基·凱斯(Nicky Case)等許多了不起的人推廣開來。
(3)分析問題
第三個用途是從數(shù)據(jù)中提取信息,用來解釋問題同時增加對一些有趣現(xiàn)象的理解。當(dāng)然,解釋性可視化也有助于人們理解某些事物。但這里的主要區(qū)別在于,在解釋性的可視化中,作者已經(jīng)知道了可視化的內(nèi)容(在執(zhí)行了一些分析之后),而在分析學(xué)中,可視化的主要價值是幫助人們第一時間理解數(shù)據(jù)。
人們已經(jīng)使用了一百萬個名字來定義此活動。最新和最時尚的名字是數(shù)字科學(xué),更具體地說是數(shù)據(jù)科學(xué)的一部分,稱為“探索性數(shù)據(jù)分析”,這是幾十年前偉大的約翰·圖基(John Tukey)發(fā)明的術(shù)語。
簡單起見,我將其稱為:數(shù)據(jù)分析,或者是視覺數(shù)據(jù)分析,甚至是交互式視覺數(shù)據(jù)分析,以強(qiáng)調(diào)是可以與之交互的圖形表現(xiàn)(學(xué)術(shù)界和商界也稱之為視覺分析)。
為何更多地談?wù)摂?shù)據(jù)分析?
這篇文章,以及之前的演講,旨在更好地定義可視化在數(shù)據(jù)分析中的角色,并激發(fā)更多關(guān)于可視化領(lǐng)域正在發(fā)生的事情的討論,遺憾的事,這件事情并沒有像其他事情那樣引人注目。
但為什么要專注于分析?它有什么特別之處?
我的理由是,數(shù)據(jù)分析是一項基礎(chǔ)的人類技術(shù)活動,它有可能幫助人們解決重要的社會和科學(xué)問題。更確切地說,我認(rèn)為數(shù)據(jù)分析很重要。因為這項活動可以幫助人們提高對復(fù)雜現(xiàn)象的理解,從而幫助人們解決重要問題。這
是一個間接但卻重要的聯(lián)系:如果我能更好地理解一個問題,那我找到更好問題解決方案的可能性就越大。
世界上不乏有趣而重要的問題,是我們希望通過數(shù)據(jù)分析能更好地理解的。以下是我個人經(jīng)歷中的一些案例,我在這里描述它們并不一定是因為它們是我們能夠解決的最重要的問題,而是因為我對這兩個案例很熟悉。
(1)監(jiān)測和認(rèn)識醫(yī)療事故
在過去幾年里,我的實驗室一直與一家在紐約市很受歡迎的獨立新聞工作室ProPublica合作。我們幫助他們篩選了來自Yelp的大量醫(yī)學(xué)評論,以識別和理解人們與醫(yī)生及其服務(wù)之間存在的問題。
你要如何才能讓數(shù)以百萬計的評論變得有意義?如何發(fā)現(xiàn)可疑事件?如何識別值得關(guān)注的評論?
事實證明:即使簡單如一個全局的“分面搜索”界面,對這項任務(wù)也是非常有用的。我們開發(fā)了一個名為RevEx的簡單工具,它使得我們的合作伙伴能夠監(jiān)測醫(yī)療事故上取得一些進(jìn)展,并就他們的發(fā)現(xiàn)發(fā)表一些令人關(guān)注的文章。
RevEx。我們開發(fā)的一個交互式數(shù)據(jù)探索工具,幫助ProPublica的查爾斯·奧恩斯坦(Charles Ornstein)從Yelp的數(shù)百萬條評論中篩選信息。
(2)了解詐騙和詐騙者
這是我們最近與Agari公司建立的合作。他們的主要目標(biāo)是追捕騙子并擾亂他們的活動。他們收集有關(guān)騙子活動極其有趣的數(shù)據(jù),希望利用這些數(shù)據(jù)更好地保護(hù)個人和企業(yè)免受惡意攻擊。
這非常重要!與他們交談,我更好地了解到詐騙對一些人造成了多么糟糕的影響。有些人的生活因為騙子的不法行為而被徹底毀掉了,這不僅僅是收件箱中收到垃圾郵件而已。
關(guān)于“理解”
你注意到了嗎?當(dāng)我們談?wù)摂?shù)據(jù)分析問題時,我們經(jīng)常將目標(biāo)描述為“理解”某些東西。然后我們可以假設(shè)數(shù)據(jù)分析的主要目的是通過數(shù)據(jù)更好地理解某些東西。
現(xiàn)實,數(shù)據(jù)/統(tǒng)計模型。人類心理模型之間的關(guān)系。
這個關(guān)系是這樣的:數(shù)據(jù)/模型是我們想要研究的一些現(xiàn)實的描述。人類對現(xiàn)實有一個心理模型,并使用數(shù)據(jù)/模型來研究它,以便可以更好地理解它。(這個概念值得整篇博文,我希望在不久的將來可以寫一篇。)
交互式數(shù)據(jù)分析如何工作?
交互式數(shù)據(jù)分析主要以循環(huán)方式運行。你從某個松散指定的目標(biāo)開始,將目標(biāo)轉(zhuǎn)換為一個或多個問題,組織和分析數(shù)據(jù)來回答這些問題,生產(chǎn)新的問題并重新開始。
為了更清晰描述這個過程,我為這個過程梳理了以下步驟:
(1)界定難題
每個項目都以難題陳述開頭。你想解決什么難題?你的最終目標(biāo)是什么?從數(shù)據(jù)分析中獲得的更多理解將如何使你更接近你的目標(biāo)?
(2)生成問題
難題說明通常太高級且寬泛,無法直接轉(zhuǎn)換為數(shù)據(jù)分析操作(這個問題經(jīng)常被忽視且未被充分理解)。通常,需要將難題(隱式地,或者更好地,顯式地)轉(zhuǎn)換為許多數(shù)據(jù)分析問題。
(3)收集,轉(zhuǎn)換和熟悉數(shù)據(jù)
有些項目有可用的數(shù)據(jù),而有些則需要一定程度的數(shù)據(jù)搜索或生成。在任何情況下,所有的項目都要求分析人員熟悉內(nèi)容及其含義并執(zhí)行多項轉(zhuǎn)換,既要熟悉數(shù)據(jù)(例如:經(jīng)常對數(shù)據(jù)進(jìn)行切片,切割和聚合)又要為計劃進(jìn)行的分析做好準(zhǔn)備。
(4)從數(shù)據(jù)中創(chuàng)建模型
并非所有項目都需要這一步,但有些項目需要。當(dāng)通過建立模型可以更容易地解答問題時,使用統(tǒng)計建模和機(jī)器學(xué)習(xí)的方法會很有用。雖然建模人員談?wù)摰拇蟛糠謨?nèi)容只是預(yù)測,但模型對于探索和生成假設(shè)來說依然是非常強(qiáng)大的工具??梢杂糜诖瞬襟E的方法包括聚類、降維、簡單回歸和將文本轉(zhuǎn)換為有意義的數(shù)字的各種NLP(自然語言處理)方法。
(5)可視化數(shù)據(jù)和模型
這是眼睛能夠觀察數(shù)據(jù)的一步?,F(xiàn)在,大多數(shù)人在考慮到這個階段時會聯(lián)想到花哨的圖表,但是像表格和列表這種簡單的表達(dá)方式對于很多問題來講反而是非常合理的可視化表達(dá)。在這里,從數(shù)據(jù)轉(zhuǎn)換和查詢(或從某些模型)獲得的結(jié)果被轉(zhuǎn)換成我們的眼睛可以消化并能夠理解的內(nèi)容。這是我們所有人,數(shù)據(jù)可視化者熱愛的一步。
(6)詮釋結(jié)果
一旦結(jié)果生成并以某種視覺形式呈現(xiàn),就需要有人對其進(jìn)行解釋。這是至關(guān)重要的一步,也是經(jīng)常被忽視的一步。展示屏幕背后有這樣一個人,他需要理解所有這些彩色點和數(shù)字的含義。
這是一項復(fù)雜的操作,包括以下步驟:理解如何閱讀圖表,理解圖表針對感興趣的現(xiàn)象傳達(dá)了什么信息,將問題的結(jié)果與問題已有的知識聯(lián)系起來。注意,這里的詮釋很大程度上受已有知識的影響。至少包括領(lǐng)域問題,數(shù)據(jù)轉(zhuǎn)換過程,建模和可視化表達(dá)的知識。這是可視化和分析另一個經(jīng)常被忽視的方面。
(7)生成推論并引出更多問題
所有這些步驟最終會產(chǎn)生一些新的知識,并且在大多數(shù)情況下,還會產(chǎn)生額外的問題或假設(shè)。這是數(shù)據(jù)分析的一個有趣特性:它的結(jié)果不僅是答案還有可能是問題;當(dāng)我們希望能引出更好更準(zhǔn)確的問題。這一步驟有一個重要點是,可能會產(chǎn)生不正確的推論。因此并非所有的過程都必然帶來積極的結(jié)果,也不是所有的分析都同樣有效。
數(shù)據(jù)分析幾個重要的方面
我想強(qiáng)調(diào)一下這個過程的幾個重要方面:
(1)這個過程不是連續(xù)有序的,而是高度迭代的
雖然我將這些步驟按順序呈現(xiàn),但是真正的過程根本就不是這樣的。隨著更多的問題、需求和限制被理解,人們總是從一個步驟跳到另一個步驟,也是高度迭代的一個過程。你通常會先提出一個最初的問題,通過分析得到一個答案,并在你完成此過程時,產(chǎn)生新的問題和需求,然后重新開始。
(2)有些操作完全是人為的
你注意到了嗎?這個過程中相當(dāng)多的步驟完全是人為的(參考上圖中的紅框):界定難題,生成問題,解釋結(jié)果,生成推論和新問題。這完全是人為操作,而非技術(shù)運作。這讓人不禁想問:我們對人類如何用數(shù)據(jù)思考了解多少?我們?nèi)绾螖U(kuò)展我們的知識,從而改進(jìn)這個過程?
(3)可視化只是流程的一小部分
對于我們這樣的數(shù)據(jù)可視化人員來說,這是重要的觀察結(jié)果。盡管我們非常喜歡可視化這一步,但是我們必須認(rèn)識到,當(dāng)可視化被用于數(shù)據(jù)分析時,它僅僅代表了多樣化展示集的一小部分。這并不是說可視化不重要或不具有挑戰(zhàn)性,但是了解全局更是至關(guān)重要。整個數(shù)據(jù)分析過程過程的有效性取決于上面的所有步驟,而不僅僅是視覺表現(xiàn)。
交互體現(xiàn)在哪里
你可能已經(jīng)注意到,我到目前為止還沒有提到交互。
為什么?因為交互隨處可見。每次你告訴你的電腦該做什么,你的電腦會返回一些信息給你,你就有了某種形式的交互。
下面是我們在數(shù)據(jù)分析中通常會執(zhí)行的操作:
- 收集和轉(zhuǎn)換數(shù)據(jù);
- 定義模型或查詢數(shù)據(jù);
- 指定如何表達(dá)結(jié)果(和模型);
- 瀏覽結(jié)果;
- 合成并傳達(dá)收集到的事實。
所有這些都需要某種形式的直接或間接交互。
直接操作與命令行交互:
當(dāng)我們談?wù)摻换ナ綌?shù)據(jù)分析時,先澄清什么是“交互式”很重要?是什么構(gòu)成了“交互式”用戶界面?
對于許多人來說,交互式可視化只涉及WIMP接口,直接操作、單擊、鼠標(biāo)懸停等。然而命令行界面也是交互式的:用戶告訴計算機(jī)要做什么,而計算機(jī)做出相應(yīng)的反響與回應(yīng)。改變的是交互“模態(tài)”,而不單只是對象是否可交互的。
在我看來,我們應(yīng)該討論的是在數(shù)據(jù)分析系統(tǒng)中直接操作交互和命令行交互的優(yōu)缺點。盡管直接操作的優(yōu)點和缺點在其他地方已經(jīng)詳細(xì)討論過(NN/g 研究團(tuán)隊出過一個很好的總結(jié)summary),但我們還沒有很好地理解它在數(shù)據(jù)分析中的作用。大多數(shù)現(xiàn)有系統(tǒng)都依賴于命令行接口。
這是為什么呢?是因為它們更有效還是因為我們還沒有發(fā)明更好的接口?
交互式可視化數(shù)據(jù)分析的挑戰(zhàn)
我想通過強(qiáng)調(diào)幾個我認(rèn)為與交互式數(shù)據(jù)分析相關(guān)性較大的挑戰(zhàn)來總結(jié)本文。同時這也是我認(rèn)為在未來幾年數(shù)據(jù)分析方面需要取得更多進(jìn)展的地方。
數(shù)據(jù)規(guī)范(思維→數(shù)據(jù)/模型)
當(dāng)我們通過計算機(jī)與數(shù)據(jù)交互時,需要做的第一件事就是將我們的問題和想法轉(zhuǎn)換成計算機(jī)能夠讀取的規(guī)范(SQL就是一個很好的例子)。
這是程序語言和格式發(fā)揮主要作用的地方。有些人可能認(rèn)為,為了向計算機(jī)發(fā)出指令,必須學(xué)習(xí)某種編程語言,但在實踐中,許多交互系統(tǒng)使用交互規(guī)范方法,將用戶操作轉(zhuǎn)換成計算機(jī)能夠理解的語句,這對于用戶操作來說更自然。
交互式規(guī)范系統(tǒng)做得很好的一個是Tableau中使用的VizQL語言(VizQL language),它將用戶的選擇轉(zhuǎn)換成系統(tǒng)能夠理解的正式語句,并用于生成查詢和適當(dāng)?shù)目梢暬硎尽?/p>
(譯者注:Tableau:一家美國專門做交互式數(shù)據(jù)可視化軟件的公司(公司官網(wǎng):https://www.tableau.com/zh-cn))
我們應(yīng)該期望人人都能成為程序員嗎?
這里的一個相關(guān)問題是:“我們是否應(yīng)該期望人人都能成為程序員并學(xué)習(xí)規(guī)范語言才能進(jìn)行數(shù)據(jù)分析?”
我個人認(rèn)為,對這一點我們必須以更包容的態(tài)度來看,并認(rèn)識到,盡管有很大一部分人可能會從數(shù)據(jù)分析工具中受益匪淺,但他們沒有時間、資源或動力去學(xué)習(xí)如何使用規(guī)范化語言。因此,盡管我是R and Jupyter和panda組合等數(shù)據(jù)科學(xué)編程工具的超級粉絲,但我仍然不確定我們是否應(yīng)該期望每個人都達(dá)到這種熟練程度,以便對數(shù)據(jù)進(jìn)行有用的處理。
Trifacta’s Wrangler和Open Refine是兩個很好的例子,可以讓人們更容易地訪問負(fù)責(zé)的數(shù)據(jù)處理,它使人們無需編寫任何代碼即可執(zhí)行大量的數(shù)據(jù)處理。
數(shù)據(jù)呈現(xiàn)(數(shù)據(jù)/模型→眼睛)
一旦從查詢和模型中獲得結(jié)果,下一步是進(jìn)行(可視化的)呈現(xiàn),以便用戶能夠觀察和理解,這是數(shù)據(jù)可視化的范圍。盡管當(dāng)大多數(shù)人聽到“數(shù)據(jù)可視化”時,他們想到的是色彩豐富的花哨圖形,但是期望簡單的數(shù)據(jù)圖表成為檢驗結(jié)果的有效方法完全是恰當(dāng)?shù)摹N野l(fā)現(xiàn)個有趣的點,我們使用“可視化”這個詞來表示復(fù)雜的圖形,但實際上簡單的表格也和其他圖表一樣屬于可視化。
多年來我發(fā)現(xiàn),當(dāng)我們談?wù)摂?shù)據(jù)可視化時,我們經(jīng)常認(rèn)為選擇使用哪種圖形圖表呈現(xiàn)是最重要的。然而,決定可視化的內(nèi)容通常與決定如何可視化一樣重要,甚至更重要。
舉個簡單例子:有時,當(dāng)信息內(nèi)容表達(dá)的是百分比而不是絕對值時,圖表能更好地傳達(dá)問題。我認(rèn)為,如果我們能夠更好地理解和描述數(shù)據(jù)轉(zhuǎn)換在可視化中所扮演的角色,那將是非常有用的。我的印象是,在很多情況下,我們往往過分強(qiáng)調(diào)圖形化的感知,然而真正的價值點在數(shù)據(jù)內(nèi)容部分。
“為了對數(shù)據(jù)分析有用,可視化需要多么花哨?”
這里要討論的另外一個問題是:“為了對數(shù)據(jù)分析有用,可視化需要多么花哨?”
我對精心設(shè)計,時尚,充滿吸引力的可視化項目十分喜愛,色彩及像素的美麗讓我第一時間愛上可視化。但是,當(dāng)我們的主要目標(biāo)是數(shù)據(jù)分析時,我不確定這能產(chǎn)生多大價值。更準(zhǔn)確地說,我確實認(rèn)為美學(xué)在可視化中扮演著重要的角色,但我不確定在為數(shù)據(jù)可視化創(chuàng)造新的隱喻方面我們還需要多少創(chuàng)新。
根據(jù)我的經(jīng)驗(基于原型研究超過10年)大多數(shù)可視化問題可以通過一些圖表來解決。很少情況下,需要你去想出一個全新的表達(dá)方式。像條形圖、折線圖、散點圖、透視表等“圖形化主力”真的很難被替代!
然而,這并不意味著進(jìn)行有效地數(shù)據(jù)可視化是容易的! 真正困難的是,如何巧妙、有效和創(chuàng)新地去使用、調(diào)整和組合這些圖表,這比人們愿意承認(rèn)的要困難得多。在某種程度上,要想在可視化方面取得進(jìn)展,創(chuàng)新和教育工作應(yīng)該更多地關(guān)注深度,而不是廣度。我們需要更多地了解如何能夠更好地使用現(xiàn)有的方法,而不是尋找更多的隱喻和技術(shù)(盡管我們也需要不斷創(chuàng)新,嘗試一些瘋狂的東西)。
數(shù)據(jù)認(rèn)知(眼睛→思維)
這一步至關(guān)重要,但往往被忽視。一旦將結(jié)果表達(dá)出來,人們需要能夠解釋并理解它們的含義。這是一個需要將若干知識連接到一起的復(fù)雜的認(rèn)知過程。
想想看:為了有效地對建模和可視化的結(jié)果進(jìn)行推論,我們需要知道什么?
至少,你需要能夠理解數(shù)據(jù)表達(dá)和模型,理解它們與它們所代表的現(xiàn)實世界實體的聯(lián)系。最后,也是最重要的,是如何與你頭腦中已有的知識聯(lián)系起來。讓我們關(guān)注可視化和模型吧。
“人們能夠理解和信任他們的可視化和模型嗎?”
這里的重要問題是:“人們能夠理解并信任他們的模型嗎?”
為了有效地解釋可視化,您首先需要理解視覺隱喻,其次視覺隱喻本身也需要以盡可能不模糊/肯定的方式傳達(dá)信息。不幸的是,并不是所有的視覺表現(xiàn)都是這樣的。
一個值得注意的例子是多維投影(使用諸如t-SNE和MDS之類的算法),它使用了某種直觀的隱喻(距離遠(yuǎn)近代表相似性),但也模棱兩可得令人難以接受。下面是一個投影的例子,顯示了從IMDB評論中提取的單詞之間的相似性。
t-SNE投影的例子
你看到這些展示的時候你學(xué)到了什么?當(dāng)你碰巧學(xué)到了一些東西時……你能確定你所學(xué)到的東西代表了某種真實的現(xiàn)象,而不僅僅是統(tǒng)計上的巧合嗎?
當(dāng)我們看模型的解釋時,我們面臨一個更大的問題。機(jī)器學(xué)習(xí)方法使用非常復(fù)雜的程序?qū)?shù)據(jù)轉(zhuǎn)換成更抽象的結(jié)構(gòu),但在這個過程中,我們完全喪失了理解其內(nèi)容、質(zhì)量和可信性的能力,建立“主題模型”。這是噩夢。
該方法將文檔集合輸入,并返回作為單詞集捕獲的一組“主題”。問題是,大多數(shù)時候返回的內(nèi)容根本沒有任何意義。以下是我們實驗室最近做的一個項目的例子。
以下是從Vox的一組文章中摘錄出來的一些主題:
主題建模生成的主題示例(使用LDA方法)
你覺得怎么樣?是否有意義呢?你能從中提取出有用的東西嗎?
憑心而論,這個方法返回了很多更有意義的主題,但是我選擇了這種更戲劇化的方式說明這個問題。
你會怎么處理這個?這是一個重要的問題,不僅需要ML(Machine Learning)專家的合作,也需要和強(qiáng)感知能力的人合作,這樣這些方法才能更有效地產(chǎn)生一個能夠真正增強(qiáng)人類心智的人類技術(shù)系統(tǒng)。
建議
我有兩組建議:一組針對從業(yè)者,一組針對研究人員。
1. 給從業(yè)者的建議
(1)多關(guān)注(更加相關(guān)的)問題
世界上不乏需要解決的相關(guān)問題,而數(shù)據(jù)分析可以發(fā)揮重要作用幫助取得進(jìn)展。無論好壞,數(shù)據(jù)無處不在,大部分的物理世界都留下了數(shù)據(jù)痕跡,這可以幫助我們更好地理解某些事物。為那些想要解決重要問題的人工作或與他們合作。選擇一個你喜歡的領(lǐng)域并嘗試獲得更好的理解與認(rèn)知。
(2)多一些工具,少一點可視化
如果我們想要提升數(shù)據(jù)分析和可視化的影響力量,并將其交給那些為我們解決重要問題的人(如醫(yī)生,氣候科學(xué)家,安全專家),我們需要更多地關(guān)注分析工具而不是可視化。構(gòu)建下一個令人驚嘆的圖形可能很有趣、有啟發(fā)性甚至在某種程度上會有用,但最終我認(rèn)為我們需要為其他人構(gòu)建工具,以幫助人們利用數(shù)據(jù)和可視化蘊(yùn)含的全部力量。
(3)公之于眾
我所描述的其實已經(jīng)發(fā)生了!甚至可能規(guī)模也很大,只是我們看不到。這些項目大多發(fā)生在私營企業(yè)的幕后,它們沒有動力對外展示自己內(nèi)部在做什么,但這種情況正在改變。
如果你剛好在從事數(shù)據(jù)分析項目,請向我們展示是如何完成的!但不要只展示最終產(chǎn)品,希望過程也能可見。讓我們在哪個環(huán)節(jié)出問題了,以及是如何應(yīng)對問題的。
一起看看你們在項目中遇到的死胡同,也許大家都能從中學(xué)到一些東西。同樣,如果你開發(fā)了一個工具,盡可能讓更多人都用到。你永遠(yuǎn)不知道,某個人在某個地方可以使用這個工具做什么,也許做出了你無法想象的卓越事件。
2. 給研究人員的建議
(1)開發(fā)更好的規(guī)范方法
將人們頭腦中的想法轉(zhuǎn)換成機(jī)器能夠理解的指令仍然是相當(dāng)具有挑戰(zhàn)性的。在編程語言方面已經(jīng)取得了很大的進(jìn)展,但是在不編碼的情況下創(chuàng)建規(guī)范仍然非常具有挑戰(zhàn)性。
近年來發(fā)明的兩個很好的交互式規(guī)范系統(tǒng)例子是:Tableau的可視化查詢語言和Trifacta的數(shù)據(jù)轉(zhuǎn)換交互方法。這解決了兩個非常重要的需求,但也不乏其他需要交互式規(guī)范的情況。例如:規(guī)格化人們對文本集合能做什么,仍然是非常具有挑戰(zhàn)性的。
(2)開發(fā)更多可解譯的方法
正如我上面提到的,解釋是一個很大的挑戰(zhàn)。正如我上面提到的,解釋是一個很大的挑戰(zhàn),尤其是當(dāng)我們關(guān)注于旨在與人交互的ML(MachineLearning)方法時,我們首先需要更好地理解解譯是如何工作的,以及解譯與既存知識和專業(yè)知識之間的關(guān)系。我們還需要開發(fā)更容易理解更靈活的方法,來接受來自人工代理的輸入和反饋。
(3)開發(fā)數(shù)據(jù)分析的“科學(xué)”
數(shù)據(jù)分析過程是由一系列復(fù)雜的認(rèn)知過程構(gòu)成的,我們對這些認(rèn)知過程的理解并不十分透徹。
什么因素能促使數(shù)據(jù)分析成功?計算工具的作用是什么?我們怎樣才能避免陷阱、偏見、遺漏等等?
這真的很復(fù)雜!雖然認(rèn)知科學(xué)的一些基礎(chǔ)研究已經(jīng)存在,但還缺少一個公認(rèn)的模型可以指導(dǎo)設(shè)計師和工程師開發(fā)和評估復(fù)雜的交互系統(tǒng)進(jìn)行數(shù)據(jù)分析。在這些方面取得進(jìn)展將使我們能夠更好地理解交互式數(shù)據(jù)分析的工作原理,并有希望能指引我們?nèi)绾蝿?chuàng)建更好的工具來思考分析數(shù)據(jù)。
結(jié)語
在這篇短文中,我認(rèn)為可視化從業(yè)者和研究人員應(yīng)該用更廣泛的視角來看待他們在數(shù)據(jù)科學(xué)領(lǐng)域中的所起的作用??梢暬瘜<铱梢酝ㄟ^專注于支持人們分析他們的數(shù)據(jù),來幫助人們解決復(fù)雜和重要的社會問題。
這可以通過:
- 理解可視化是一個大而復(fù)雜的過程中的一個(重要的)步驟;
- 尋求與需要他們幫助的人合作;
- 開發(fā)工具讓他們用數(shù)據(jù)做一些了不起的事情。
我希望你能從這篇文章中得到啟發(fā),盡管這篇文章有點長。我們需要一大批像你這樣的可視化愛好者來做一些對世界有影響的重要工作!
原文鏈接:https://medium.com/@FILWD/from-data-visualization-to-interactive-data-analysis-e24ae3751bf3
譯者:rubyxrli,公眾號:騰訊FiTdesign(ID:FiTdesign2017)
本文來源于人人都是產(chǎn)品經(jīng)理合作媒體@ 騰訊FITdesign,作者@rubyxrli
題圖來自Unsplash,基于CC0協(xié)議
web3的到來會影響全球支付領(lǐng)域嗎?