平行坐標系:高維數(shù)據(jù)可視化分析的必備殺手锏

3 評論 5028 瀏覽 7 收藏 11 分鐘

編輯導(dǎo)語:數(shù)據(jù)可視化并不是簡單的把數(shù)據(jù)變成圖表,而是以數(shù)據(jù)為視角,看待世界,換句話說,數(shù)據(jù)可視化的客體是數(shù)據(jù)。如果能夠很好的運用平行坐標系,便能高效地進行高維數(shù)據(jù)可視化分析。

今天聊聊一種不太常見但又挺好用的可視化圖形:平行坐標系。

關(guān)于數(shù)據(jù)可視化,我們很久之前分享過Excel基礎(chǔ)圖表以及Excel進階圖表,都是Excel支持的我們常用的一些圖表邏輯。今天分享一個數(shù)據(jù)人應(yīng)該見過但是不那么熟悉的圖形:平行坐標系(Parallel Coordinates)。

一、定義及適用場景

首先,聊聊平行坐標系的一些整體概述內(nèi)容。

1. 基礎(chǔ)定義

平行坐標系,是一種含有多個垂直平行坐標軸的統(tǒng)計圖表。每個垂直坐標軸表示一個字段(維度),每個字段(維度)又用刻度來標明范圍,如下示例圖。

平行坐標系:高維數(shù)據(jù)可視化分析的必備殺手锏

這樣,一個多維的數(shù)據(jù)可以很容易地在每一條軸上找到“落點”,從而連接起來,形成一條折線。隨著數(shù)據(jù)增多,折線堆疊,分析者則有可能從中發(fā)現(xiàn)特性和規(guī)律,比如發(fā)現(xiàn)數(shù)據(jù)之間的聚類關(guān)系。

2. 歷史發(fā)展

大約在一百多年前,就已經(jīng)有人運用平行坐標,來對復(fù)雜事件做可視化。

平行坐標系:高維數(shù)據(jù)可視化分析的必備殺手锏

在20世紀70年代,作為一種統(tǒng)計圖表,平行坐標系被特拉維夫大學(xué)的Alfred Inselberg系統(tǒng)發(fā)展起來。

3. 適用場景

平行坐標圖最適用于多維數(shù)據(jù)(尤其是維度大于3個時,3個以內(nèi)的維度可以用散點圖)的分析和比較。例如,多個學(xué)科、多個考核指標、多個關(guān)鍵參數(shù)等。

當然,前提是用來比較的對象都具有這些維度。比如,一個經(jīng)典的案例(下文中的場景案例2),是用平行坐標系來比較世界各國汽車在性能上的差異。對于汽車而言,這些維度是共有的(包括耗油量、汽缸數(shù)、加速度等等),因而適合比較。

二、圖表詳細邏輯

我們以一個例子,理解一下圖表的數(shù)據(jù)邏輯。

例如,某班主任想分析班級學(xué)生的優(yōu)劣勢科目,以及每個學(xué)生的偏科情況。下面是具體數(shù)據(jù)表:

平行坐標系:高維數(shù)據(jù)可視化分析的必備殺手锏

做完平行坐標圖后:

平行坐標系:高維數(shù)據(jù)可視化分析的必備殺手锏

平行坐標系的每個坐標軸,很可能有不同的數(shù)據(jù)范圍,這一點很容易造成讀者誤解。作圖時,最好顯著標明每一根軸上的最小值、最大值。

使用平行坐標系時,如何確定軸的順序,是可以人為決定的。一般來說,順序會影響閱讀的感知和判斷。兩根坐標軸隔得越近,人們對二者的對比就感知地越強烈。因此,要得出最合適、美觀的排序方式,往往需要經(jīng)過多次的試驗和比較。反過來講,嘗試不同的排布方式,也可能有助于得出更多的結(jié)論。

三、與其他圖表的關(guān)系

下面我們看一看平行坐標系和其他比較相似的圖表的對比。

1. 與折線圖

平行坐標系與折線圖完全不同。

平行坐標系:高維數(shù)據(jù)可視化分析的必備殺手锏

折線圖的數(shù)據(jù)是通過時間組織起來的(每個數(shù)據(jù)點之間包含著時間前后的關(guān)系),但平行坐標軸并沒有時間序列,它的坐標軸是可以人為設(shè)定順序的,點與點之間也沒有因果關(guān)系,折線并不代表趨勢。各個坐標軸之間也沒有因果關(guān)系。

2. 與桑吉圖

桑吉圖在之前的 路徑分析 中有過介紹。

平行坐標系:高維數(shù)據(jù)可視化分析的必備殺手锏

看著挺像的,但是桑吉圖有個重要的邏輯是:每個豎軸前后是有順序關(guān)系的,而平行坐標系沒有先后順序。

因此,桑吉圖更多作為用戶路徑先后順序的分析,以及層次拆分的分析。

3. 與雷達圖

其實,平行坐標系和雷達圖是最相近的。

平行坐標系:高維數(shù)據(jù)可視化分析的必備殺手锏

雷達圖表示的是多個維度上的分布情況,平行坐標系也是。因此可以將平行坐標系理解成雷達圖的展開。大多數(shù)情況下,這兩者確實可以互換。

四、劣勢以及交互提升

平行坐標系的弊端在于折線太多、看上去十分龐雜,過于凌亂。但平行坐標系在處理多維數(shù)據(jù)上的優(yōu)勢,仍然是其他統(tǒng)計圖難以比擬的。尤其是,當平行坐標系配合交互功能使用時,其價值就會立刻顯現(xiàn)。

最好的解決方法是加入交互——“Brushing”,用戶可以通過“刷”的方法,在坐標軸上“刷”出他們想要探索的部分?;静僮魇?,用戶可以在每一根垂直坐標軸上“刷”出自己想要的范圍,處于范圍內(nèi)的折線高亮,其余的呈灰度。這樣一來,我們既可以看到所有折線堆疊出來的整體景觀,又可以自由定制想看的范圍,可以說是“見樹又見林”。

當然,交互的設(shè)計可以不限于此,比如下圖將平行坐標系與表格結(jié)合起來,對于小型的數(shù)據(jù)集來說,會更加一目了然。

平行坐標系:高維數(shù)據(jù)可視化分析的必備殺手锏

此外,如下圖所示,也可以通過技術(shù)將繁雜的折線“捆”在一起(Bundling Technique),這樣,人們的視覺就更能集中于起始的刻度。

平行坐標系:高維數(shù)據(jù)可視化分析的必備殺手锏

五、典型案例

最后,我們看兩個典型的利用平行坐標系的案例。

1. 歷年世界500強排名

下圖總結(jié)了1955-2010年來的世界五百強公司排名、收入和利潤情況。

平行坐標系:高維數(shù)據(jù)可視化分析的必備殺手锏

每一根豎軸代表一年的排名,通過將每家公司歷年的排名描點、連線,就形成了一條折線。鼠標滑動時,相應(yīng)的公司會高亮顯示,方便讀者探索它的興衰變化。例如上圖中,我們看到可口可樂公司的排名,盡管有所波動,但始終位于高位,并且穩(wěn)中有升,在1994年達到巔峰,之后有所回落。

原文鏈接:https://fathom.info/fortune500/

2. 汽車參數(shù)對比

在平行坐標系的眾多簡介中,幾乎都會涉及到這個汽車的案例——數(shù)據(jù)包括上世紀70、80年代的32款汽車,以及這些汽車的氣缸數(shù)(cylinders)、引擎大?。╠isplacement)、每加侖汽油行駛的里程(MPG)、功率(horsepower)、重量(weight)等等。

平行坐標系:高維數(shù)據(jù)可視化分析的必備殺手锏

從圖中(Evans, no date),我們可以清晰地看出一些關(guān)系,例如從里程與氣缸數(shù)呈負相關(guān)、氣缸數(shù)與功率呈正相關(guān)。再比如,隨著時間發(fā)展,汽車越來越輕了。通過“Brushing”功能,還有更多新奇發(fā)現(xiàn)。

關(guān)于平行坐標系,我們就先介紹這些吧。如果大家對可視化圖表感興趣,后面我作為系列展開多分享分享。我覺得這種基礎(chǔ)的數(shù)據(jù)產(chǎn)品以及數(shù)據(jù)分析的知識點,還是有必要扎實掌握的。

#專欄作家#

NK冬至,公眾號:首席數(shù)據(jù)科學(xué)家,人人都是產(chǎn)品經(jīng)理專欄作家。在金融領(lǐng)域、電商領(lǐng)域有豐富數(shù)據(jù)及產(chǎn)品經(jīng)驗。擅長數(shù)據(jù)分析、數(shù)據(jù)產(chǎn)品等相關(guān)內(nèi)容。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于CC0協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 當我們需要對所使用的高位數(shù)據(jù)進行數(shù)據(jù)分析的時候往往感到束手無策。

    來自山東 回復(fù)
  2. 太酷了,作者的這些文章,碼住學(xué)習(xí)了,希望能夠多掌握一些知識

    來自云南 回復(fù)
    1. 感謝關(guān)注~歡迎關(guān)注同名公號

      回復(fù)