不會制作詞云圖?我來教你
編輯導(dǎo)語:云圖,也叫文字云,是對文本中出現(xiàn)頻率較高的“關(guān)鍵詞”予以視覺化的展現(xiàn),詞云圖過濾掉大量的低頻低質(zhì)的文本信息,使得瀏覽者只要一眼掃過文本就可領(lǐng)略文本的主旨。如今,越來越多的文章開始使用詞云圖來展示信息。如此便利的信息展示形式,你還不會制作嗎?
詞云圖是數(shù)據(jù)可視化的一種常見形式,特別適合于文本數(shù)據(jù)的處理和分析,今天就來大略談?wù)勗~云圖。
一、什么是詞云圖
“詞云”的概念最早是美國西北大學(xué)新聞學(xué)副教授、新媒體專業(yè)主任里奇?戈登(Rich Gordon)提出的。
詞云(Word Cloud),又稱文字云、標(biāo)簽云(Tag Cloud)、關(guān)鍵詞云(Keyword Cloud),是文本數(shù)據(jù)的一種可視化展現(xiàn)方式,它一般是由文本數(shù)據(jù)中提取的詞匯組成某些彩色圖形。
詞云圖的核心價值在于以高頻關(guān)鍵詞的可視化表達(dá),來傳達(dá)大量文本數(shù)據(jù)背后的有價值的信息。
以央視網(wǎng)對浦東開發(fā)開放30周年慶祝大會的新聞報道為例(網(wǎng)址:https://news.cctv.com/2020/11/12/ARTIZeNIAERfxwqaQdNVIZOa201112.shtml),用在線詞云制作工具易詞云對該網(wǎng)頁上的文本數(shù)據(jù)進(jìn)行處理,得到了下圖1所示的詞云圖。
圖1 詞云圖示例
由上可見,詞云圖是由詞匯、顏色、字體大小和圖形四個要素構(gòu)成的,它濃縮了文本數(shù)據(jù)的內(nèi)容,通過文字、色彩、圖形的搭配,產(chǎn)生了有沖擊力地視覺效果。
詞云圖直觀的表示了每個詞匯在相應(yīng)文本數(shù)據(jù)中的詞頻分布,通過使用不同的顏色和大小來表示不同級別的相對重要性,字體越大越顯眼,對應(yīng)的詞匯被提及頻率越高。
詞云圖過濾掉了大量的文本信息,使網(wǎng)頁瀏覽者只要一眼掃過詞云圖就可以大致領(lǐng)略到文本所表達(dá)的主旨。
二、詞云圖有何特點
詞云圖作為對文本數(shù)據(jù)的一種再加工方式,本身存在一些優(yōu)勢,但也有一些不足之處。筆者認(rèn)為,詞云圖有四個優(yōu)點和四個缺點:
1. 四個優(yōu)點
- 視覺上更有沖擊力:詞云圖比條形圖、直方圖和詞頻統(tǒng)計表格等更有吸引力,視覺沖擊力更強(qiáng),一定程度上迎合了人們快節(jié)奏閱讀的習(xí)慣;
- 內(nèi)容上更直接:詞云圖本身是對文本內(nèi)容的高度濃縮和精簡處理,能更直觀的反映特定文本的內(nèi)容,在一定程度上能節(jié)省讀者時間,讓讀者在短時間內(nèi)對文本數(shù)據(jù)的主要信息做到一目了然;
- 應(yīng)用范圍廣:詞云圖可以作為一種分析工具應(yīng)用到用戶畫像、輿情分析等場景下,還可以直接嵌入到PPT報告、數(shù)據(jù)分析類產(chǎn)品、可視化大屏中,是對文本數(shù)據(jù)價值變現(xiàn)的一種手段;
- 制作門檻低:制作詞云圖的難度不高,沒有數(shù)據(jù)處理技術(shù)背景的人也能做出有效的詞云圖來。
2. 四個缺點
- 區(qū)分度不足:詞云圖對詞匯的表達(dá)采取的“抓大放小”的處理方式,對于詞頻相差較大的詞匯有較好的區(qū)分度,但對于顏色相近、出現(xiàn)頻率差不多的詞匯的區(qū)分效果不是很好;
- 輸出無統(tǒng)一標(biāo)準(zhǔn):受制于分詞技術(shù)、算法、詞庫質(zhì)量等因素,不同的人對于同一文本數(shù)據(jù),采取不同的詞云圖生成方式和圖案,得到的詞云圖可能會有較大差異,有時候可能出現(xiàn)一些亂碼,影響詞云圖的輸出效果;
- 信息缺失問題:詞云圖對高頻詞匯能做到突出化處理,讓高頻詞匯占據(jù)C位,但是對于大量低頻詞匯或者長尾型詞匯所傳遞的信息不能做很好的表達(dá),再加之這類詞匯大多字體偏小,可能會讓讀者忽略掉部分信息。對于有特定要求的或者關(guān)注某些細(xì)節(jié)的讀者來說,詞云圖可能無法滿足他們的需求;
- 內(nèi)容表達(dá)缺乏邏輯性:詞云圖是由各類詞匯在空間上按一定圖形組合而形成的,這些詞匯都是從有邏輯結(jié)構(gòu)的文本數(shù)據(jù)中拆分出來的,從文字變成了圖形后,再呈現(xiàn)出來的內(nèi)容失去了內(nèi)在的邏輯結(jié)構(gòu),需要讀者將高頻詞匯串聯(lián)起來形成聯(lián)想才能獲取到信息。
三、詞云圖如何制作
制作詞云圖這件事情并不復(fù)雜,通常需要經(jīng)過數(shù)據(jù)準(zhǔn)備、分詞處理、圖形輸出三個步驟。
第一步要做的是準(zhǔn)備一份文本數(shù)據(jù),要求文本數(shù)據(jù)中沒有圖片或音視頻文件及其鏈接;第二步需要對準(zhǔn)備好的數(shù)據(jù)進(jìn)行分詞處理,提取其中的關(guān)鍵詞,并做詞頻統(tǒng)計;最后一步就是選擇合適的圖案,做要輸出的圖形進(jìn)行個性化配置,生成想要的詞云圖。
從實現(xiàn)方法來看,制作詞云圖通??梢苑譃槿N方法:借助在線工具、應(yīng)用專門的軟件、編程實現(xiàn)。
- 第一種方法:借助在線工具,也就是在網(wǎng)頁上就能完成詞云圖的制作和輸出。目前支持在線制作詞云圖的網(wǎng)站有:WordArt、Wordiout、微詞云、易詞云、美寄詞云等;
- 第二種方法:直接使用有詞云圖制作功能的軟件,比如:FineBI、Tableau、SmartBI、BDP等,詞云圖只是這些軟件的一個小功能;
- 第三種方法:通過編程來實現(xiàn)詞云圖,常用的編程語言有Python和R。
對于有編程技術(shù)基礎(chǔ)的朋友,可以自行用Python等制作詞云圖,對于沒有編程基礎(chǔ)的朋友采取前兩種方法,這兩種方法操作起來比較容易,有興趣的朋友可以親自嘗試一下,筆者在這里就不一一介紹了。
作者:黃小剛,微信公眾號:大數(shù)據(jù)產(chǎn)品設(shè)計與運營
本文由 @黃小剛 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議
要是有Python、R的詞云圖代碼就好啦