全球?qū)@麛?shù)據(jù)要怎么玩才有趣?之 突發(fā)熱詞(四)
掌握突發(fā)熱詞的計算方法,可以幫我們從全球?qū)@胁蹲狡髽I(yè)最新研究熱點、了解某位專家近期研究熱點以及掌握特定區(qū)域近期研究熱點
一、說職場故事
在實際產(chǎn)業(yè)研究中,有這樣的研究需求:
- 捕捉企業(yè)的最新研究熱點
- 了解某位專家的近期研究熱點
- 掌握特定區(qū)域近期研究熱點
本文將探討如何利用全球?qū)@麛?shù)據(jù)挖掘技術(shù),揭示近期的研究熱點。
二、熱詞的計算方法
在深入挖掘之前,我們首先需要了解熱詞的計算方法。熱詞指的是在特定時間內(nèi),出現(xiàn)頻率低但增長迅速且具有持久性的詞匯。
計算熱詞的方法主要包括:
- 貝葉斯平均法
- 牛頓冷卻定律
1、貝葉斯評價法
v: 某一個詞出現(xiàn)的總頻詞
m : 所有的詞出現(xiàn)的頻次總和/詞的數(shù)量
R:某個詞當(dāng)前出現(xiàn)的次數(shù)/該詞出現(xiàn)的所有次數(shù)
C:∑ R /詞的數(shù)量,即所有詞的平均基礎(chǔ)得分
WR越大,說明熱度越大
如下計算方式:
2、牛頓冷卻定律
為了防止除數(shù)為0,可以將公式改為:
冷卻系數(shù)越大說明熱度越大。
三、說應(yīng)用場景
根據(jù)不同的研究需求,我們可以選擇相應(yīng)的專利數(shù)據(jù)集,并通過分詞技術(shù)(如jieba分詞、LAC分析或大型語言模型)進(jìn)行處理。然后,根據(jù)貝葉斯平均法或牛頓冷卻定律計算候選詞的熱度,并按降序排列篩選出熱詞。
在實際中有以下應(yīng)用場景:
- 捕捉企業(yè)的最新研究熱點:獲取企業(yè)專利數(shù)據(jù)集,計算最近時間內(nèi)企業(yè)出現(xiàn)的熱詞及熱度。
- 了解某位專家的近期研究熱點:根據(jù)專利發(fā)明人和專利申請人獲取某個專家在最近時間內(nèi)出現(xiàn)額熱詞及熱度。
- 掌握特定技術(shù)的近期研究熱點:根據(jù)IPC獲取專利數(shù)據(jù)集,計算某個技術(shù)最近時間內(nèi)出現(xiàn)的熱詞及熱度。
- 揭示特定區(qū)域的近期研究熱點:獲取區(qū)域內(nèi)專利數(shù)據(jù)集,計算區(qū)域最近時間內(nèi)出現(xiàn)的熱詞和熱度。
四、寫在后面的話
本文介紹了利用貝葉斯平均法和牛頓冷卻定律計算熱詞的方法,在實際應(yīng)用過程中注意使用的靈活性:
- 計算方式的靈活性:在實際計算熱詞可以將貝葉斯平均法、牛頓冷卻定律結(jié)合使用,綜合熱度= a * WR + b *a(W),其中a,b可以根據(jù)實際效果不斷調(diào)參。
- 使用對象的靈活性:熱詞挖掘方法不僅限于全球?qū)@麛?shù)據(jù),也適用于其他時間序列的文本文件,如論文、期刊和項目數(shù)據(jù)。
本文由 @王海濤 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)
- 目前還沒評論,等你發(fā)揮!