亚洲日本一区二区三区在线 ,国产三级小视频在线播放完整版,亚洲AV永久无码一区二区三区

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

開(kāi)通會(huì)員

發(fā)布

注冊(cè) | 登錄

從數(shù)據(jù)可視化到交互式數(shù)據(jù)分析

騰訊FITdesign

2019-09-03

1 評(píng)論 18048 瀏覽 25 收藏

高可視性的可視化項(xiàng)目主要關(guān)注兩個(gè)目的：帶來(lái)靈感和幫助解釋。然而，可視化可以通過(guò)數(shù)據(jù)分析來(lái)增加對(duì)復(fù)雜問(wèn)題的理解，這樣的項(xiàng)目雖然不多見(jiàn)，但不代表不重要。

注：本文是作者在參與紐約的Uber數(shù)據(jù)可視化大會(huì)上所做演講的書(shū)面精煉版本，以下是作者原文。

高可視性的可視化項(xiàng)目主要關(guān)注兩個(gè)目的：帶來(lái)靈感和幫助解釋。然而，可視化可以通過(guò)數(shù)據(jù)分析來(lái)增加對(duì)復(fù)雜問(wèn)題的理解，這樣的項(xiàng)目雖然不多見(jiàn)，但不代表不重要。

數(shù)據(jù)可視化的三個(gè)主要用途

我知道我這樣總結(jié)可能存在嚴(yán)重簡(jiǎn)化的風(fēng)險(xiǎn)。但是，我發(fā)現(xiàn)根據(jù)主要目的（有意或無(wú)意）確定數(shù)據(jù)可視化的三類主要用途是很有用的，這也有助于我在本文后面闡明一些觀點(diǎn)。

（1）激動(dòng)人心

第一個(gè)用途是激勵(lì)人們，讓人們驚嘆！但這種驚嘆不僅僅是在膚淺的表面，而是真正讓人們獲得更深層次的思考、美感和敬畏?？梢暬哂辛钊穗y以置信的力量，可以吸引人們的注意力，同時(shí)也可以將它們引入夢(mèng)幻般的虛擬世界，將抽象概念轉(zhuǎn)化為更有形的存在。

我見(jiàn)過(guò)最具啟發(fā)靈感的一個(gè)完美的可視化例子是我朋友Giorgia Lupi的一個(gè)作品，是他用自己獨(dú)特的手繪風(fēng)格（以及數(shù)字）所創(chuàng)作的杰作。(點(diǎn)擊鏈接可以看看最近在現(xiàn)代藝術(shù)博物館展出的照片check this recent one exposed at MOMA）

（2）解釋現(xiàn)象

第二個(gè)用途是使用圖形圖表來(lái)說(shuō)明一些復(fù)雜的想法，現(xiàn)象或過(guò)程。這是一個(gè)圖形表現(xiàn)的領(lǐng)域：人類是視覺(jué)生物，所以一張圖片有時(shí)勝過(guò)千言萬(wàn)語(yǔ)。

多年來(lái)，數(shù)據(jù)新聞為通過(guò)數(shù)據(jù)解釋復(fù)雜事物的藝術(shù)提供了很好的貢獻(xiàn)（參見(jiàn)《紐約時(shí)報(bào)》和《華盛頓郵報(bào)》多年來(lái)所做的令人驚嘆的工作）。同時(shí)這也屬于教育領(lǐng)域，尤其是基于數(shù)字和圖表的科學(xué)教育。

這也是最近一個(gè)被稱為“探索性解釋”（“explorable explanations”）的美麗潮流的領(lǐng)域，由布雷特·維克托（Bret Victor）開(kāi)創(chuàng)，并被尼基·凱斯（Nicky Case）等許多了不起的人推廣開(kāi)來(lái)。

（3）分析問(wèn)題

第三個(gè)用途是從數(shù)據(jù)中提取信息，用來(lái)解釋問(wèn)題同時(shí)增加對(duì)一些有趣現(xiàn)象的理解。當(dāng)然，解釋性可視化也有助于人們理解某些事物。但這里的主要區(qū)別在于，在解釋性的可視化中，作者已經(jīng)知道了可視化的內(nèi)容（在執(zhí)行了一些分析之后），而在分析學(xué)中，可視化的主要價(jià)值是幫助人們第一時(shí)間理解數(shù)據(jù)。

人們已經(jīng)使用了一百萬(wàn)個(gè)名字來(lái)定義此活動(dòng)。最新和最時(shí)尚的名字是數(shù)字科學(xué)，更具體地說(shuō)是數(shù)據(jù)科學(xué)的一部分，稱為“探索性數(shù)據(jù)分析”，這是幾十年前偉大的約翰·圖基（John Tukey）發(fā)明的術(shù)語(yǔ)。

簡(jiǎn)單起見(jiàn)，我將其稱為：數(shù)據(jù)分析，或者是視覺(jué)數(shù)據(jù)分析，甚至是交互式視覺(jué)數(shù)據(jù)分析，以強(qiáng)調(diào)是可以與之交互的圖形表現(xiàn)（學(xué)術(shù)界和商界也稱之為視覺(jué)分析）。

為何更多地談?wù)摂?shù)據(jù)分析？

這篇文章，以及之前的演講，旨在更好地定義可視化在數(shù)據(jù)分析中的角色，并激發(fā)更多關(guān)于可視化領(lǐng)域正在發(fā)生的事情的討論，遺憾的事，這件事情并沒(méi)有像其他事情那樣引人注目。

但為什么要專注于分析？它有什么特別之處？

我的理由是，數(shù)據(jù)分析是一項(xiàng)基礎(chǔ)的人類技術(shù)活動(dòng)，它有可能幫助人們解決重要的社會(huì)和科學(xué)問(wèn)題。更確切地說(shuō)，我認(rèn)為數(shù)據(jù)分析很重要。因?yàn)檫@項(xiàng)活動(dòng)可以幫助人們提高對(duì)復(fù)雜現(xiàn)象的理解，從而幫助人們解決重要問(wèn)題。這

是一個(gè)間接但卻重要的聯(lián)系：如果我能更好地理解一個(gè)問(wèn)題，那我找到更好問(wèn)題解決方案的可能性就越大。

世界上不乏有趣而重要的問(wèn)題，是我們希望通過(guò)數(shù)據(jù)分析能更好地理解的。以下是我個(gè)人經(jīng)歷中的一些案例，我在這里描述它們并不一定是因?yàn)樗鼈兪俏覀兡軌蚪鉀Q的最重要的問(wèn)題，而是因?yàn)槲覍?duì)這兩個(gè)案例很熟悉。

（1）監(jiān)測(cè)和認(rèn)識(shí)醫(yī)療事故

在過(guò)去幾年里，我的實(shí)驗(yàn)室一直與一家在紐約市很受歡迎的獨(dú)立新聞工作室ProPublica合作。我們幫助他們篩選了來(lái)自Yelp的大量醫(yī)學(xué)評(píng)論，以識(shí)別和理解人們與醫(yī)生及其服務(wù)之間存在的問(wèn)題。

你要如何才能讓數(shù)以百萬(wàn)計(jì)的評(píng)論變得有意義？如何發(fā)現(xiàn)可疑事件？如何識(shí)別值得關(guān)注的評(píng)論？

事實(shí)證明：即使簡(jiǎn)單如一個(gè)全局的“分面搜索”界面，對(duì)這項(xiàng)任務(wù)也是非常有用的。我們開(kāi)發(fā)了一個(gè)名為RevEx的簡(jiǎn)單工具，它使得我們的合作伙伴能夠監(jiān)測(cè)醫(yī)療事故上取得一些進(jìn)展，并就他們的發(fā)現(xiàn)發(fā)表一些令人關(guān)注的文章。

「交譯所」從數(shù)據(jù)可視化到交互式數(shù)據(jù)分析

RevEx。我們開(kāi)發(fā)的一個(gè)交互式數(shù)據(jù)探索工具，幫助ProPublica的查爾斯·奧恩斯坦(Charles Ornstein)從Yelp的數(shù)百萬(wàn)條評(píng)論中篩選信息。

（2）了解詐騙和詐騙者

這是我們最近與Agari公司建立的合作。他們的主要目標(biāo)是追捕騙子并擾亂他們的活動(dòng)。他們收集有關(guān)騙子活動(dòng)極其有趣的數(shù)據(jù)，希望利用這些數(shù)據(jù)更好地保護(hù)個(gè)人和企業(yè)免受惡意攻擊。

這非常重要！與他們交談，我更好地了解到詐騙對(duì)一些人造成了多么糟糕的影響。有些人的生活因?yàn)轵_子的不法行為而被徹底毀掉了，這不僅僅是收件箱中收到垃圾郵件而已。

關(guān)于“理解”

你注意到了嗎？當(dāng)我們談?wù)摂?shù)據(jù)分析問(wèn)題時(shí)，我們經(jīng)常將目標(biāo)描述為“理解”某些東西。然后我們可以假設(shè)數(shù)據(jù)分析的主要目的是通過(guò)數(shù)據(jù)更好地理解某些東西。

「交譯所」從數(shù)據(jù)可視化到交互式數(shù)據(jù)分析

現(xiàn)實(shí)，數(shù)據(jù)/統(tǒng)計(jì)模型。人類心理模型之間的關(guān)系。

這個(gè)關(guān)系是這樣的：數(shù)據(jù)/模型是我們想要研究的一些現(xiàn)實(shí)的描述。人類對(duì)現(xiàn)實(shí)有一個(gè)心理模型，并使用數(shù)據(jù)/模型來(lái)研究它，以便可以更好地理解它。（這個(gè)概念值得整篇博文，我希望在不久的將來(lái)可以寫(xiě)一篇。）

交互式數(shù)據(jù)分析如何工作？

「交譯所」從數(shù)據(jù)可視化到交互式數(shù)據(jù)分析

交互式數(shù)據(jù)分析主要以循環(huán)方式運(yùn)行。你從某個(gè)松散指定的目標(biāo)開(kāi)始，將目標(biāo)轉(zhuǎn)換為一個(gè)或多個(gè)問(wèn)題，組織和分析數(shù)據(jù)來(lái)回答這些問(wèn)題，生產(chǎn)新的問(wèn)題并重新開(kāi)始。

為了更清晰描述這個(gè)過(guò)程，我為這個(gè)過(guò)程梳理了以下步驟：

（1）界定難題

每個(gè)項(xiàng)目都以難題陳述開(kāi)頭。你想解決什么難題？你的最終目標(biāo)是什么？從數(shù)據(jù)分析中獲得的更多理解將如何使你更接近你的目標(biāo)？

（2）生成問(wèn)題

難題說(shuō)明通常太高級(jí)且寬泛，無(wú)法直接轉(zhuǎn)換為數(shù)據(jù)分析操作（這個(gè)問(wèn)題經(jīng)常被忽視且未被充分理解）。通常，需要將難題（隱式地，或者更好地，顯式地）轉(zhuǎn)換為許多數(shù)據(jù)分析問(wèn)題。

（3）收集，轉(zhuǎn)換和熟悉數(shù)據(jù)

有些項(xiàng)目有可用的數(shù)據(jù)，而有些則需要一定程度的數(shù)據(jù)搜索或生成。在任何情況下，所有的項(xiàng)目都要求分析人員熟悉內(nèi)容及其含義并執(zhí)行多項(xiàng)轉(zhuǎn)換，既要熟悉數(shù)據(jù)（例如：經(jīng)常對(duì)數(shù)據(jù)進(jìn)行切片，切割和聚合）又要為計(jì)劃進(jìn)行的分析做好準(zhǔn)備。

（4）從數(shù)據(jù)中創(chuàng)建模型

并非所有項(xiàng)目都需要這一步，但有些項(xiàng)目需要。當(dāng)通過(guò)建立模型可以更容易地解答問(wèn)題時(shí)，使用統(tǒng)計(jì)建模和機(jī)器學(xué)習(xí)的方法會(huì)很有用。雖然建模人員談?wù)摰拇蟛糠謨?nèi)容只是預(yù)測(cè)，但模型對(duì)于探索和生成假設(shè)來(lái)說(shuō)依然是非常強(qiáng)大的工具?？梢杂糜诖瞬襟E的方法包括聚類、降維、簡(jiǎn)單回歸和將文本轉(zhuǎn)換為有意義的數(shù)字的各種NLP(自然語(yǔ)言處理)方法。

（5）可視化數(shù)據(jù)和模型

這是眼睛能夠觀察數(shù)據(jù)的一步?，F(xiàn)在，大多數(shù)人在考慮到這個(gè)階段時(shí)會(huì)聯(lián)想到花哨的圖表，但是像表格和列表這種簡(jiǎn)單的表達(dá)方式對(duì)于很多問(wèn)題來(lái)講反而是非常合理的可視化表達(dá)。在這里，從數(shù)據(jù)轉(zhuǎn)換和查詢（或從某些模型）獲得的結(jié)果被轉(zhuǎn)換成我們的眼睛可以消化并能夠理解的內(nèi)容。這是我們所有人，數(shù)據(jù)可視化者熱愛(ài)的一步。

（6）詮釋結(jié)果

一旦結(jié)果生成并以某種視覺(jué)形式呈現(xiàn)，就需要有人對(duì)其進(jìn)行解釋。這是至關(guān)重要的一步，也是經(jīng)常被忽視的一步。展示屏幕背后有這樣一個(gè)人，他需要理解所有這些彩色點(diǎn)和數(shù)字的含義。

這是一項(xiàng)復(fù)雜的操作，包括以下步驟：理解如何閱讀圖表，理解圖表針對(duì)感興趣的現(xiàn)象傳達(dá)了什么信息，將問(wèn)題的結(jié)果與問(wèn)題已有的知識(shí)聯(lián)系起來(lái)。注意，這里的詮釋很大程度上受已有知識(shí)的影響。至少包括領(lǐng)域問(wèn)題，數(shù)據(jù)轉(zhuǎn)換過(guò)程，建模和可視化表達(dá)的知識(shí)。這是可視化和分析另一個(gè)經(jīng)常被忽視的方面。

（7）生成推論并引出更多問(wèn)題

所有這些步驟最終會(huì)產(chǎn)生一些新的知識(shí)，并且在大多數(shù)情況下，還會(huì)產(chǎn)生額外的問(wèn)題或假設(shè)。這是數(shù)據(jù)分析的一個(gè)有趣特性：它的結(jié)果不僅是答案還有可能是問(wèn)題；當(dāng)我們希望能引出更好更準(zhǔn)確的問(wèn)題。這一步驟有一個(gè)重要點(diǎn)是，可能會(huì)產(chǎn)生不正確的推論。因此并非所有的過(guò)程都必然帶來(lái)積極的結(jié)果，也不是所有的分析都同樣有效。

數(shù)據(jù)分析幾個(gè)重要的方面

我想強(qiáng)調(diào)一下這個(gè)過(guò)程的幾個(gè)重要方面：

（1）這個(gè)過(guò)程不是連續(xù)有序的，而是高度迭代的

雖然我將這些步驟按順序呈現(xiàn)，但是真正的過(guò)程根本就不是這樣的。隨著更多的問(wèn)題、需求和限制被理解，人們總是從一個(gè)步驟跳到另一個(gè)步驟，也是高度迭代的一個(gè)過(guò)程。你通常會(huì)先提出一個(gè)最初的問(wèn)題，通過(guò)分析得到一個(gè)答案，并在你完成此過(guò)程時(shí)，產(chǎn)生新的問(wèn)題和需求，然后重新開(kāi)始。

（2）有些操作完全是人為的

你注意到了嗎？這個(gè)過(guò)程中相當(dāng)多的步驟完全是人為的（參考上圖中的紅框）：界定難題，生成問(wèn)題，解釋結(jié)果，生成推論和新問(wèn)題。這完全是人為操作，而非技術(shù)運(yùn)作。這讓人不禁想問(wèn)：我們對(duì)人類如何用數(shù)據(jù)思考了解多少？我們?nèi)绾螖U(kuò)展我們的知識(shí)，從而改進(jìn)這個(gè)過(guò)程?

（3）可視化只是流程的一小部分

對(duì)于我們這樣的數(shù)據(jù)可視化人員來(lái)說(shuō)，這是重要的觀察結(jié)果。盡管我們非常喜歡可視化這一步，但是我們必須認(rèn)識(shí)到，當(dāng)可視化被用于數(shù)據(jù)分析時(shí)，它僅僅代表了多樣化展示集的一小部分。這并不是說(shuō)可視化不重要或不具有挑戰(zhàn)性，但是了解全局更是至關(guān)重要。整個(gè)數(shù)據(jù)分析過(guò)程過(guò)程的有效性取決于上面的所有步驟，而不僅僅是視覺(jué)表現(xiàn)。

交互體現(xiàn)在哪里

你可能已經(jīng)注意到，我到目前為止還沒(méi)有提到交互。

為什么？因?yàn)榻换ルS處可見(jiàn)。每次你告訴你的電腦該做什么，你的電腦會(huì)返回一些信息給你，你就有了某種形式的交互。

下面是我們?cè)跀?shù)據(jù)分析中通常會(huì)執(zhí)行的操作：

收集和轉(zhuǎn)換數(shù)據(jù)；
定義模型或查詢數(shù)據(jù)；
指定如何表達(dá)結(jié)果（和模型）；
瀏覽結(jié)果；
合成并傳達(dá)收集到的事實(shí)。

所有這些都需要某種形式的直接或間接交互。

直接操作與命令行交互：

當(dāng)我們談?wù)摻换ナ綌?shù)據(jù)分析時(shí)，先澄清什么是“交互式”很重要？是什么構(gòu)成了“交互式”用戶界面？

對(duì)于許多人來(lái)說(shuō)，交互式可視化只涉及WIMP接口，直接操作、單擊、鼠標(biāo)懸停等。然而命令行界面也是交互式的：用戶告訴計(jì)算機(jī)要做什么，而計(jì)算機(jī)做出相應(yīng)的反響與回應(yīng)。改變的是交互“模態(tài)”，而不單只是對(duì)象是否可交互的。

在我看來(lái)，我們應(yīng)該討論的是在數(shù)據(jù)分析系統(tǒng)中直接操作交互和命令行交互的優(yōu)缺點(diǎn)。盡管直接操作的優(yōu)點(diǎn)和缺點(diǎn)在其他地方已經(jīng)詳細(xì)討論過(guò)（NN/g 研究團(tuán)隊(duì)出過(guò)一個(gè)很好的總結(jié)summary），但我們還沒(méi)有很好地理解它在數(shù)據(jù)分析中的作用。大多數(shù)現(xiàn)有系統(tǒng)都依賴于命令行接口。

這是為什么呢？是因?yàn)樗鼈兏行н€是因?yàn)槲覀冞€沒(méi)有發(fā)明更好的接口?

交互式可視化數(shù)據(jù)分析的挑戰(zhàn)

我想通過(guò)強(qiáng)調(diào)幾個(gè)我認(rèn)為與交互式數(shù)據(jù)分析相關(guān)性較大的挑戰(zhàn)來(lái)總結(jié)本文。同時(shí)這也是我認(rèn)為在未來(lái)幾年數(shù)據(jù)分析方面需要取得更多進(jìn)展的地方。

數(shù)據(jù)規(guī)范（思維→數(shù)據(jù)/模型）

當(dāng)我們通過(guò)計(jì)算機(jī)與數(shù)據(jù)交互時(shí)，需要做的第一件事就是將我們的問(wèn)題和想法轉(zhuǎn)換成計(jì)算機(jī)能夠讀取的規(guī)范（SQL就是一個(gè)很好的例子）。

這是程序語(yǔ)言和格式發(fā)揮主要作用的地方。有些人可能認(rèn)為，為了向計(jì)算機(jī)發(fā)出指令，必須學(xué)習(xí)某種編程語(yǔ)言，但在實(shí)踐中，許多交互系統(tǒng)使用交互規(guī)范方法，將用戶操作轉(zhuǎn)換成計(jì)算機(jī)能夠理解的語(yǔ)句，這對(duì)于用戶操作來(lái)說(shuō)更自然。

交互式規(guī)范系統(tǒng)做得很好的一個(gè)是Tableau中使用的VizQL語(yǔ)言（VizQL language），它將用戶的選擇轉(zhuǎn)換成系統(tǒng)能夠理解的正式語(yǔ)句，并用于生成查詢和適當(dāng)?shù)目梢暬硎尽?/p>

（譯者注：Tableau：一家美國(guó)專門做交互式數(shù)據(jù)可視化軟件的公司（公司官網(wǎng)：https://www.tableau.com/zh-cn））

我們應(yīng)該期望人人都能成為程序員嗎?

這里的一個(gè)相關(guān)問(wèn)題是：“我們是否應(yīng)該期望人人都能成為程序員并學(xué)習(xí)規(guī)范語(yǔ)言才能進(jìn)行數(shù)據(jù)分析？”

我個(gè)人認(rèn)為，對(duì)這一點(diǎn)我們必須以更包容的態(tài)度來(lái)看，并認(rèn)識(shí)到，盡管有很大一部分人可能會(huì)從數(shù)據(jù)分析工具中受益匪淺，但他們沒(méi)有時(shí)間、資源或動(dòng)力去學(xué)習(xí)如何使用規(guī)范化語(yǔ)言。因此，盡管我是R and Jupyter和panda組合等數(shù)據(jù)科學(xué)編程工具的超級(jí)粉絲，但我仍然不確定我們是否應(yīng)該期望每個(gè)人都達(dá)到這種熟練程度，以便對(duì)數(shù)據(jù)進(jìn)行有用的處理。

Trifacta’s Wrangler和Open Refine是兩個(gè)很好的例子，可以讓人們更容易地訪問(wèn)負(fù)責(zé)的數(shù)據(jù)處理，它使人們無(wú)需編寫(xiě)任何代碼即可執(zhí)行大量的數(shù)據(jù)處理。

數(shù)據(jù)呈現(xiàn)（數(shù)據(jù)/模型→眼睛）

一旦從查詢和模型中獲得結(jié)果，下一步是進(jìn)行（可視化的）呈現(xiàn)，以便用戶能夠觀察和理解，這是數(shù)據(jù)可視化的范圍。盡管當(dāng)大多數(shù)人聽(tīng)到“數(shù)據(jù)可視化”時(shí)，他們想到的是色彩豐富的花哨圖形，但是期望簡(jiǎn)單的數(shù)據(jù)圖表成為檢驗(yàn)結(jié)果的有效方法完全是恰當(dāng)?shù)?。我發(fā)現(xiàn)個(gè)有趣的點(diǎn)，我們使用“可視化”這個(gè)詞來(lái)表示復(fù)雜的圖形，但實(shí)際上簡(jiǎn)單的表格也和其他圖表一樣屬于可視化。

多年來(lái)我發(fā)現(xiàn)，當(dāng)我們談?wù)摂?shù)據(jù)可視化時(shí)，我們經(jīng)常認(rèn)為選擇使用哪種圖形圖表呈現(xiàn)是最重要的。然而，決定可視化的內(nèi)容通常與決定如何可視化一樣重要，甚至更重要。

舉個(gè)簡(jiǎn)單例子：有時(shí)，當(dāng)信息內(nèi)容表達(dá)的是百分比而不是絕對(duì)值時(shí)，圖表能更好地傳達(dá)問(wèn)題。我認(rèn)為，如果我們能夠更好地理解和描述數(shù)據(jù)轉(zhuǎn)換在可視化中所扮演的角色，那將是非常有用的。我的印象是，在很多情況下，我們往往過(guò)分強(qiáng)調(diào)圖形化的感知，然而真正的價(jià)值點(diǎn)在數(shù)據(jù)內(nèi)容部分。

“為了對(duì)數(shù)據(jù)分析有用，可視化需要多么花哨？”

這里要討論的另外一個(gè)問(wèn)題是：“為了對(duì)數(shù)據(jù)分析有用，可視化需要多么花哨？”

我對(duì)精心設(shè)計(jì)，時(shí)尚，充滿吸引力的可視化項(xiàng)目十分喜愛(ài)，色彩及像素的美麗讓我第一時(shí)間愛(ài)上可視化。但是，當(dāng)我們的主要目標(biāo)是數(shù)據(jù)分析時(shí)，我不確定這能產(chǎn)生多大價(jià)值。更準(zhǔn)確地說(shuō)，我確實(shí)認(rèn)為美學(xué)在可視化中扮演著重要的角色，但我不確定在為數(shù)據(jù)可視化創(chuàng)造新的隱喻方面我們還需要多少創(chuàng)新。

根據(jù)我的經(jīng)驗(yàn)（基于原型研究超過(guò)10年）大多數(shù)可視化問(wèn)題可以通過(guò)一些圖表來(lái)解決。很少情況下，需要你去想出一個(gè)全新的表達(dá)方式。像條形圖、折線圖、散點(diǎn)圖、透視表等“圖形化主力”真的很難被替代！

然而，這并不意味著進(jìn)行有效地?cái)?shù)據(jù)可視化是容易的! 真正困難的是，如何巧妙、有效和創(chuàng)新地去使用、調(diào)整和組合這些圖表，這比人們?cè)敢獬姓J(rèn)的要困難得多。在某種程度上，要想在可視化方面取得進(jìn)展，創(chuàng)新和教育工作應(yīng)該更多地關(guān)注深度，而不是廣度。我們需要更多地了解如何能夠更好地使用現(xiàn)有的方法，而不是尋找更多的隱喻和技術(shù)(盡管我們也需要不斷創(chuàng)新，嘗試一些瘋狂的東西)。

數(shù)據(jù)認(rèn)知（眼睛→思維）

這一步至關(guān)重要，但往往被忽視。一旦將結(jié)果表達(dá)出來(lái)，人們需要能夠解釋并理解它們的含義。這是一個(gè)需要將若干知識(shí)連接到一起的復(fù)雜的認(rèn)知過(guò)程。

想想看：為了有效地對(duì)建模和可視化的結(jié)果進(jìn)行推論，我們需要知道什么？

至少，你需要能夠理解數(shù)據(jù)表達(dá)和模型，理解它們與它們所代表的現(xiàn)實(shí)世界實(shí)體的聯(lián)系。最后，也是最重要的，是如何與你頭腦中已有的知識(shí)聯(lián)系起來(lái)。讓我們關(guān)注可視化和模型吧。

“人們能夠理解和信任他們的可視化和模型嗎?”

這里的重要問(wèn)題是：“人們能夠理解并信任他們的模型嗎?”

為了有效地解釋可視化，您首先需要理解視覺(jué)隱喻，其次視覺(jué)隱喻本身也需要以盡可能不模糊/肯定的方式傳達(dá)信息。不幸的是，并不是所有的視覺(jué)表現(xiàn)都是這樣的。

一個(gè)值得注意的例子是多維投影（使用諸如t-SNE和MDS之類的算法），它使用了某種直觀的隱喻(距離遠(yuǎn)近代表相似性)，但也模棱兩可得令人難以接受。下面是一個(gè)投影的例子，顯示了從IMDB評(píng)論中提取的單詞之間的相似性。

「交譯所」從數(shù)據(jù)可視化到交互式數(shù)據(jù)分析

t-SNE投影的例子

你看到這些展示的時(shí)候你學(xué)到了什么？當(dāng)你碰巧學(xué)到了一些東西時(shí)……你能確定你所學(xué)到的東西代表了某種真實(shí)的現(xiàn)象，而不僅僅是統(tǒng)計(jì)上的巧合嗎？

當(dāng)我們看模型的解釋時(shí)，我們面臨一個(gè)更大的問(wèn)題。機(jī)器學(xué)習(xí)方法使用非常復(fù)雜的程序?qū)?shù)據(jù)轉(zhuǎn)換成更抽象的結(jié)構(gòu)，但在這個(gè)過(guò)程中，我們完全喪失了理解其內(nèi)容、質(zhì)量和可信性的能力，建立“主題模型”。這是噩夢(mèng)。

該方法將文檔集合輸入，并返回作為單詞集捕獲的一組“主題”。問(wèn)題是，大多數(shù)時(shí)候返回的內(nèi)容根本沒(méi)有任何意義。以下是我們實(shí)驗(yàn)室最近做的一個(gè)項(xiàng)目的例子。

以下是從Vox的一組文章中摘錄出來(lái)的一些主題：

「交譯所」從數(shù)據(jù)可視化到交互式數(shù)據(jù)分析

主題建模生成的主題示例（使用LDA方法）

你覺(jué)得怎么樣？是否有意義呢？你能從中提取出有用的東西嗎？

憑心而論，這個(gè)方法返回了很多更有意義的主題，但是我選擇了這種更戲劇化的方式說(shuō)明這個(gè)問(wèn)題。

你會(huì)怎么處理這個(gè)？這是一個(gè)重要的問(wèn)題，不僅需要ML（Machine Learning）專家的合作，也需要和強(qiáng)感知能力的人合作，這樣這些方法才能更有效地產(chǎn)生一個(gè)能夠真正增強(qiáng)人類心智的人類技術(shù)系統(tǒng)。

建議

我有兩組建議：一組針對(duì)從業(yè)者，一組針對(duì)研究人員。

1. 給從業(yè)者的建議

（1）多關(guān)注（更加相關(guān)的）問(wèn)題

世界上不乏需要解決的相關(guān)問(wèn)題，而數(shù)據(jù)分析可以發(fā)揮重要作用幫助取得進(jìn)展。無(wú)論好壞，數(shù)據(jù)無(wú)處不在，大部分的物理世界都留下了數(shù)據(jù)痕跡，這可以幫助我們更好地理解某些事物。為那些想要解決重要問(wèn)題的人工作或與他們合作。選擇一個(gè)你喜歡的領(lǐng)域并嘗試獲得更好的理解與認(rèn)知。

（2）多一些工具，少一點(diǎn)可視化

如果我們想要提升數(shù)據(jù)分析和可視化的影響力量，并將其交給那些為我們解決重要問(wèn)題的人（如醫(yī)生，氣候科學(xué)家，安全專家），我們需要更多地關(guān)注分析工具而不是可視化。構(gòu)建下一個(gè)令人驚嘆的圖形可能很有趣、有啟發(fā)性甚至在某種程度上會(huì)有用，但最終我認(rèn)為我們需要為其他人構(gòu)建工具，以幫助人們利用數(shù)據(jù)和可視化蘊(yùn)含的全部力量。

（3）公之于眾

我所描述的其實(shí)已經(jīng)發(fā)生了!甚至可能規(guī)模也很大，只是我們看不到。這些項(xiàng)目大多發(fā)生在私營(yíng)企業(yè)的幕后，它們沒(méi)有動(dòng)力對(duì)外展示自己內(nèi)部在做什么，但這種情況正在改變。

如果你剛好在從事數(shù)據(jù)分析項(xiàng)目，請(qǐng)向我們展示是如何完成的！但不要只展示最終產(chǎn)品，希望過(guò)程也能可見(jiàn)。讓我們?cè)谀膫€(gè)環(huán)節(jié)出問(wèn)題了，以及是如何應(yīng)對(duì)問(wèn)題的。

一起看看你們?cè)陧?xiàng)目中遇到的死胡同，也許大家都能從中學(xué)到一些東西。同樣，如果你開(kāi)發(fā)了一個(gè)工具，盡可能讓更多人都用到。你永遠(yuǎn)不知道，某個(gè)人在某個(gè)地方可以使用這個(gè)工具做什么，也許做出了你無(wú)法想象的卓越事件。

2. 給研究人員的建議

（1）開(kāi)發(fā)更好的規(guī)范方法

將人們頭腦中的想法轉(zhuǎn)換成機(jī)器能夠理解的指令仍然是相當(dāng)具有挑戰(zhàn)性的。在編程語(yǔ)言方面已經(jīng)取得了很大的進(jìn)展，但是在不編碼的情況下創(chuàng)建規(guī)范仍然非常具有挑戰(zhàn)性。

近年來(lái)發(fā)明的兩個(gè)很好的交互式規(guī)范系統(tǒng)例子是：Tableau的可視化查詢語(yǔ)言和Trifacta的數(shù)據(jù)轉(zhuǎn)換交互方法。這解決了兩個(gè)非常重要的需求，但也不乏其他需要交互式規(guī)范的情況。例如：規(guī)格化人們對(duì)文本集合能做什么，仍然是非常具有挑戰(zhàn)性的。

（2）開(kāi)發(fā)更多可解譯的方法

正如我上面提到的，解釋是一個(gè)很大的挑戰(zhàn)。正如我上面提到的，解釋是一個(gè)很大的挑戰(zhàn)，尤其是當(dāng)我們關(guān)注于旨在與人交互的ML（MachineLearning）方法時(shí)，我們首先需要更好地理解解譯是如何工作的，以及解譯與既存知識(shí)和專業(yè)知識(shí)之間的關(guān)系。我們還需要開(kāi)發(fā)更容易理解更靈活的方法，來(lái)接受來(lái)自人工代理的輸入和反饋。

（3）開(kāi)發(fā)數(shù)據(jù)分析的“科學(xué)”

數(shù)據(jù)分析過(guò)程是由一系列復(fù)雜的認(rèn)知過(guò)程構(gòu)成的，我們對(duì)這些認(rèn)知過(guò)程的理解并不十分透徹。

什么因素能促使數(shù)據(jù)分析成功？計(jì)算工具的作用是什么？我們?cè)鯓硬拍鼙苊庀葳?、偏?jiàn)、遺漏等等？

這真的很復(fù)雜！雖然認(rèn)知科學(xué)的一些基礎(chǔ)研究已經(jīng)存在，但還缺少一個(gè)公認(rèn)的模型可以指導(dǎo)設(shè)計(jì)師和工程師開(kāi)發(fā)和評(píng)估復(fù)雜的交互系統(tǒng)進(jìn)行數(shù)據(jù)分析。在這些方面取得進(jìn)展將使我們能夠更好地理解交互式數(shù)據(jù)分析的工作原理，并有希望能指引我們?nèi)绾蝿?chuàng)建更好的工具來(lái)思考分析數(shù)據(jù)。

結(jié)語(yǔ)

在這篇短文中，我認(rèn)為可視化從業(yè)者和研究人員應(yīng)該用更廣泛的視角來(lái)看待他們?cè)跀?shù)據(jù)科學(xué)領(lǐng)域中的所起的作用。可視化專家可以通過(guò)專注于支持人們分析他們的數(shù)據(jù)，來(lái)幫助人們解決復(fù)雜和重要的社會(huì)問(wèn)題。

這可以通過(guò)：