在線社交網(wǎng)絡(luò)核心用戶挖掘與傳播規(guī)模預(yù)測(cè)

1 評(píng)論 5338 瀏覽 13 收藏 42 分鐘
🔗 B端产品经理需要进行售前演示、方案定制、合同签订等,而C端产品经理需要进行活动策划、内容运营、用户激励等

編輯導(dǎo)讀:新浪微博作為一個(gè)新型的社交軟件,已經(jīng)成為了信息傳播的重要載體。它具有傳播迅速、信息量大、覆蓋面廣的特點(diǎn),但同時(shí)對(duì)一些不良的社會(huì)事件也產(chǎn)生了推波助瀾的作用。本文將從六個(gè)方面,對(duì)其傳播鏈路展開分析,希望對(duì)你有幫助。

摘要:

新浪微博作為21世紀(jì)一種新型的社交軟件,已經(jīng)成為當(dāng)今中國(guó)社會(huì)各界信息傳播的重要載體。與傳統(tǒng)社交平臺(tái)的傳播方式不同,其信息通過用戶交互行為如發(fā)布、評(píng)論、轉(zhuǎn)發(fā)等形式進(jìn)行傳播,具有信息量大、覆蓋面廣、傳播迅速且傳播過程具有裂變性等特點(diǎn),這在一定程度上推動(dòng)了廣告優(yōu)化、商品營(yíng)銷等信息產(chǎn)業(yè)的發(fā)展,但同時(shí)也對(duì)危害事件、謠言等傳播起到推波助瀾的作用,其引發(fā)的問題為互聯(lián)網(wǎng)的安全運(yùn)行帶來(lái)了新的挑戰(zhàn)。

本文通過研究30條熱門微博的完整轉(zhuǎn)發(fā)鏈路,挖掘信息擴(kuò)散主要推動(dòng)者,量化參與者對(duì)信息傳播的影響力,剖析微博熱門信息傳播范式,提出一種基于微博關(guān)注關(guān)系以及傳染病模型的傳播預(yù)測(cè)模型,同時(shí)展望信息強(qiáng)化效應(yīng)在傳播規(guī)模預(yù)測(cè)的應(yīng)用,結(jié)合用戶影響力,在線性閾值模型的基礎(chǔ)上著重考慮不同用戶的核心程度,預(yù)測(cè)單條微博的最終傳播規(guī)模。

關(guān)鍵詞:微博;社交網(wǎng)絡(luò);核心傳播者;信息擴(kuò)散;傳染病模型

一、引言

在單條微博傳播網(wǎng)絡(luò)中,信息的擴(kuò)散主要依賴于用戶間的轉(zhuǎn)發(fā),大多數(shù)用戶存在于信息傳播樹較底層次范圍內(nèi),微博最終擴(kuò)散規(guī)模通常由極少數(shù)用戶決定,這些用戶往往是官方機(jī)構(gòu)、輿論大V或者事件實(shí)際參與者,即為核心傳播者。

核心傳播者的識(shí)別,可以協(xié)助人們快速了解信息傳播過程以及整體傳播趨勢(shì),精準(zhǔn)定位信息擴(kuò)散中的“裂變點(diǎn)”,便于提前對(duì)網(wǎng)絡(luò)輿情傳播進(jìn)行有效干預(yù),對(duì)于熱點(diǎn)發(fā)現(xiàn)、廣告投遞、謠言阻斷、官方辟謠等具有重要意義(1)。

圖1 核心用戶挖掘相關(guān)工作

除了核心用戶的識(shí)別,傳播規(guī)模也是影響微博最終傳播效果的關(guān)鍵要素之一。通過對(duì)信息傳播規(guī)模的預(yù)測(cè),可以提早發(fā)現(xiàn)信息傳播的最終影響范圍。相關(guān)研究集中于信息傳播建模、影響力最大化等方面。其在實(shí)際應(yīng)用中也十分重要,例如企業(yè)推廣新產(chǎn)品期間,據(jù)此尋找最優(yōu)營(yíng)銷策略,實(shí)現(xiàn)降低推廣成本的同時(shí)提高經(jīng)濟(jì)效益;政府部門則可以用其來(lái)衡量謠言等不良信息危害程度,或運(yùn)用信息在社交網(wǎng)絡(luò)里的傳播范式科學(xué)有效地發(fā)布信息,引導(dǎo)輿論走向,提供決策支撐等(2)。

圖2 傳播規(guī)模預(yù)測(cè)相關(guān)工作

基于上述分析,本文主要闡述了以下兩方面工作:

第一,本文通過分析微博網(wǎng)絡(luò)中完整的轉(zhuǎn)發(fā)鏈路,定義了核者的識(shí)別。

第二,本文通過提取微博網(wǎng)絡(luò)中的相關(guān)特征,綜合分析對(duì)轉(zhuǎn)發(fā)產(chǎn)生影響的因素,考慮到影響轉(zhuǎn)發(fā)因素的用戶影響力以及信息強(qiáng)化效應(yīng),以線性閾值模型(LT)、傳染病模型(SEIR)為最初藍(lán)本,改進(jìn)閾值表示方法,實(shí)現(xiàn)對(duì)于單條微博最終傳播規(guī)模的預(yù)測(cè)。

二、數(shù)據(jù)分析

2.1 數(shù)據(jù)介紹

本研究使用數(shù)據(jù)為30條熱門微博的完整轉(zhuǎn)發(fā)鏈路,全部傳播數(shù)據(jù)及參與傳播的賬號(hào)關(guān)系(脫敏),包括用戶轉(zhuǎn)發(fā)時(shí)間以及部分轉(zhuǎn)發(fā)用戶的關(guān)注。

2.2 轉(zhuǎn)發(fā)層級(jí)分析

轉(zhuǎn)發(fā)深度與廣度是信息傳播的重要指標(biāo),通過對(duì)30條不同類型微博傳播鏈路進(jìn)行分析,我們有如下發(fā)現(xiàn)(附錄Ⅰ):

  • 不同主體類型微博往往具有不同的轉(zhuǎn)發(fā)深度。
  • 對(duì)同一事件,不同微博文本對(duì)于轉(zhuǎn)發(fā)深度也有不同影響。
  • 轉(zhuǎn)發(fā)深度與最終規(guī)模有相對(duì)較弱的正相關(guān)關(guān)系。

2.3 關(guān)注結(jié)構(gòu)分析

關(guān)注關(guān)系是其社交網(wǎng)絡(luò)結(jié)構(gòu)的重要組成部分,用戶間的關(guān)注關(guān)系共同構(gòu)成網(wǎng)絡(luò)結(jié)構(gòu)的入度與出度。通過分析88829條用戶關(guān)注數(shù)據(jù)有如下發(fā)現(xiàn)(附錄Ⅱ(1)):

  • 有8420人次(10%)關(guān)注人數(shù)高達(dá)993,我們分析提供的數(shù)據(jù)爬取時(shí)最高爬取量為993。
  • 大量用戶關(guān)注數(shù)在100~200檔位,符合一般邏輯,因?yàn)榇蠖鄶?shù)人處理社交事務(wù)精力有限。

三、核心用戶挖掘

核心用戶挖掘往往與關(guān)鍵節(jié)點(diǎn)發(fā)現(xiàn)以及影響力最大化等研究結(jié)合在一起, Richardson和Domingos等人(3)的研究認(rèn)為影響最大化問題本質(zhì)上是一個(gè)算法問題,問題的關(guān)鍵在于精確識(shí)別網(wǎng)絡(luò)中某些對(duì)于信息擴(kuò)散最具影響力的節(jié)點(diǎn)。

本文核心用戶挖掘的工作主要圍繞一個(gè)思想,倆個(gè)網(wǎng)絡(luò)與四種指標(biāo)展開??紤]到核心用戶在不同場(chǎng)景下有不同的定義,在信息傳播的情形下,本文使用用戶微博擴(kuò)散能力、對(duì)下級(jí)用戶影響程度能力為衡量指標(biāo)計(jì)算核心用戶的核心程度。具體運(yùn)用PageRank思想,基于微博轉(zhuǎn)發(fā)關(guān)系網(wǎng)絡(luò)、用戶關(guān)注關(guān)系網(wǎng)絡(luò),構(gòu)建微博轉(zhuǎn)發(fā)時(shí)間性、用戶轉(zhuǎn)發(fā)影響力,對(duì)下級(jí)用戶的情緒強(qiáng)弱性影響以及在靜態(tài)網(wǎng)絡(luò)中的用戶自身位置信息指標(biāo)決定用戶核心程度。

圖3?核心用戶挖掘解決流程

3.1?baseline:級(jí)聯(lián)率

級(jí)聯(lián)率(Cascade?Ratio)刻畫了參與信息傳播的用戶通過該條信息影響其粉絲的程度,用戶u轉(zhuǎn)發(fā)了某條微博i的級(jí)聯(lián)率CR(u,i)可以定義為:

其中S(i)表示該條信息i最終的擴(kuò)散規(guī)模;N(u,i)表示用戶u引起的轉(zhuǎn)發(fā)數(shù)量。一般來(lái)說,級(jí)聯(lián)率計(jì)算簡(jiǎn)易,適用于大規(guī)模轉(zhuǎn)發(fā)網(wǎng)絡(luò)的核心傳播者發(fā)現(xiàn),局限性在于其對(duì)影響力的評(píng)估過于簡(jiǎn)單,缺乏對(duì)轉(zhuǎn)發(fā)網(wǎng)絡(luò)鏈路整體性的思考。

3.2 基于轉(zhuǎn)發(fā)關(guān)系網(wǎng)絡(luò)結(jié)構(gòu):轉(zhuǎn)發(fā)時(shí)間性

微博具有大規(guī)模性、噪聲多樣性、快速傳播演化性等新特征(5),面對(duì)海量信息覆蓋,用戶存在“快餐式”的信息消費(fèi)習(xí)慣,致使大多數(shù)微博的存在壽命十分短暫,因此我們定義擴(kuò)散速率為另一用戶影響力衡量指標(biāo)。因此我們用指數(shù)衰減函數(shù)模擬用戶轉(zhuǎn)發(fā)時(shí)間對(duì)用戶影響力的貢獻(xiàn),衰減速率參數(shù)設(shè)置為11小時(shí)。這也符合戈茲等人基于微博分析提出消息影響力衰減服從冪律分布的結(jié)論。

其中,ωi,j為用戶i轉(zhuǎn)發(fā)用戶微博對(duì)其影響力的貢獻(xiàn)值,ti為用戶i轉(zhuǎn)發(fā)用戶j微博的時(shí)刻,tj為用戶j發(fā)布或轉(zhuǎn)發(fā)微博的時(shí)間。λ為控制衰減速率的參數(shù),設(shè)置λ=11h。衰減速率控制參數(shù)λ確定(λ>0):

PageRank算法的計(jì)算公式:每個(gè)網(wǎng)頁(yè)的 PR 值不僅僅要考慮被鏈接網(wǎng)頁(yè)的數(shù)量,還要考慮鏈接到該網(wǎng)頁(yè)的網(wǎng)頁(yè)質(zhì)量和重要性的影響。

考慮轉(zhuǎn)發(fā)時(shí)間性指標(biāo),轉(zhuǎn)發(fā)影響力的計(jì)算公式:每個(gè)用戶的轉(zhuǎn)發(fā)影響力值不僅僅要考慮其引起轉(zhuǎn)發(fā)的數(shù)量,還要考慮引起轉(zhuǎn)發(fā)的用戶的質(zhì)量和重要性。

其中,influence(j)表示用戶i的轉(zhuǎn)發(fā)影響力,q為為阻尼系數(shù)(Damping Factor)且0<q<1,R(j)為用戶i引起的轉(zhuǎn)發(fā)用戶集合,ωi,j為時(shí)間性指標(biāo),考慮到轉(zhuǎn)發(fā)關(guān)系網(wǎng)絡(luò)中用戶參與轉(zhuǎn)發(fā)微博的父微博用戶唯一,因此式中out(i)為1。

轉(zhuǎn)發(fā)影響力的計(jì)算中本文使用的基于轉(zhuǎn)發(fā)時(shí)間性指標(biāo)的PageRank算法衡量用戶對(duì)于微博轉(zhuǎn)發(fā)的影響力,具體旨在不僅用節(jié)點(diǎn)出度值計(jì)算貢獻(xiàn)度,還考慮基于邊賦值上由轉(zhuǎn)發(fā)時(shí)間性得到的權(quán)重。同樣的,考慮到大規(guī)模網(wǎng)絡(luò)計(jì)算的復(fù)雜度指標(biāo),本文提出第二種衡量轉(zhuǎn)發(fā)時(shí)間性的指標(biāo):

單位時(shí)間引起的轉(zhuǎn)發(fā)量:統(tǒng)計(jì)某用ui戶引起轉(zhuǎn)發(fā)的微博的起始轉(zhuǎn)發(fā)時(shí)間start_time(ui)與終止轉(zhuǎn)發(fā)時(shí)間end_time(ui),及其引起的總轉(zhuǎn)發(fā)量sum(ui),計(jì)算轉(zhuǎn)發(fā)速度有:

一定規(guī)模轉(zhuǎn)發(fā)時(shí)間:取ui引發(fā)的所有微博轉(zhuǎn)發(fā)總量的99%分位數(shù)記為threshold(ui),轉(zhuǎn)發(fā)量在其下的,一定規(guī)模轉(zhuǎn)發(fā)時(shí)間記為0,而微博轉(zhuǎn)發(fā)量達(dá)到所有微博轉(zhuǎn)發(fā)總量的99%分位數(shù)的微博,則統(tǒng)計(jì)微博的起始轉(zhuǎn)發(fā)時(shí)間start_time(ui)與達(dá)到threshold(ui)轉(zhuǎn)發(fā)量的轉(zhuǎn)發(fā)時(shí)間threshold_time(ui)計(jì)算其一定規(guī)模轉(zhuǎn)發(fā)時(shí)間為:

指標(biāo)綜合及規(guī)一化:

3.3 基于關(guān)注關(guān)系網(wǎng)絡(luò)結(jié)構(gòu):用戶自身質(zhì)量

用戶自身質(zhì)量指標(biāo)與用戶在靜態(tài)網(wǎng)絡(luò)(關(guān)注關(guān)系網(wǎng)絡(luò))中的位置信息以及對(duì)下層用戶的情緒影響決定。

參考PageRank算法的思想(4),利用真實(shí)轉(zhuǎn)發(fā)鏈路數(shù)據(jù)提出一種新的核心傳播者轉(zhuǎn)發(fā)影響力評(píng)價(jià)指標(biāo)ZX值,該算法基于社交網(wǎng)絡(luò)上信息實(shí)際轉(zhuǎn)發(fā)鏈路,能夠相對(duì)客觀地反應(yīng)用戶在單條微博的傳播中對(duì)最終規(guī)模的影響力,用戶ZX值定義如下:

其中ZX(ui)為參與轉(zhuǎn)發(fā)微博的用戶ui的ZX值;F(ui)為轉(zhuǎn)發(fā)用戶ui微博的用戶集合;O(vj) 為用戶vj的關(guān)注用戶數(shù);0<d<1為阻尼系數(shù),其設(shè)置影響算法的性能,通常d為0.85??紤]到微博轉(zhuǎn)發(fā)關(guān)系矩陣較為稀疏,故通過迭代后節(jié)點(diǎn)ZX值相對(duì)較小,又此處我們定義的ZX值僅代表單條微博所有參與轉(zhuǎn)發(fā)的用戶對(duì)信息擴(kuò)散的貢獻(xiàn)程度,故我們可以對(duì)此值歸一化處理,方便以后的集成計(jì)算,有:

觀察用戶核心度值與引起直接轉(zhuǎn)發(fā)數(shù)的相關(guān)性,可以發(fā)現(xiàn)該指標(biāo)能夠較好的體現(xiàn)其直接引發(fā)的轉(zhuǎn)發(fā)數(shù)量,也考慮到對(duì)后續(xù)轉(zhuǎn)發(fā)的間接推動(dòng)(附錄Ⅱ(2))。綜合來(lái)看,社交網(wǎng)絡(luò)往往普遍存在大規(guī)模性,因此使用復(fù)雜度高的算法難以實(shí)現(xiàn)對(duì)顯示社交網(wǎng)絡(luò)的指標(biāo)計(jì)算,結(jié)合用戶自身質(zhì)量指標(biāo)衡量手段不一,因此也可以考慮相關(guān)中心性算法實(shí)現(xiàn)用戶自身質(zhì)量的量化。

3.4 基于關(guān)注關(guān)系網(wǎng)絡(luò)結(jié)構(gòu):情緒強(qiáng)弱性

考慮到觀念、情緒等也是可以傳播的,故本文旨在量化情緒的強(qiáng)弱對(duì)轉(zhuǎn)發(fā)的促進(jìn)作用,此處使用《基于情感詞典的情感分析方法》計(jì)算用戶情緒強(qiáng)弱性,對(duì)于每一個(gè)文本都可以得到一個(gè)情感分值,以情感分值的正負(fù)性表示情感極性,大于0為積極情緒,小于0反之,絕對(duì)值越大情緒越強(qiáng)烈。

基于情感詞典的情感分析方法主要思路:

  • 對(duì)文本進(jìn)行分詞,找出文本中的情感詞、否定詞以及程度副詞;
  • 判斷每個(gè)情感詞之前是否存在否定詞及程度副詞,將其與情感詞分為文本中的一個(gè)組;
  • 如果情感詞前有否定詞則將情感詞的情感權(quán)值乘以-1,如果有程度副詞就乘以程度副詞的程度值;
  • 加和所有組的得分,積極情緒得分大于0、消極情緒得分小于0,絕對(duì)值越大情緒越強(qiáng)。

圖4?情緒強(qiáng)弱性判定結(jié)果

一個(gè)轉(zhuǎn)發(fā)用戶的情緒影響指標(biāo)由其對(duì)下層用戶的情緒強(qiáng)弱性值決定,使用上述算法,以單條微博涉及用戶為范圍計(jì)算用戶情緒影響指標(biāo),并做歸一化處理。

用戶自身質(zhì)量指標(biāo)是位置信息與情緒影響的線性相加,有:

其中,a1、a2分別為用戶自身質(zhì)量計(jì)算中位置信息因素與情緒影響因素所占比重,設(shè)為0.8、0.2。

3.5?指標(biāo)集成

對(duì)于高復(fù)雜度算法算法:在基于社交網(wǎng)絡(luò)的信息傳播過程中:

  • 轉(zhuǎn)發(fā)影響力:體現(xiàn)被轉(zhuǎn)發(fā)用戶信息傳播能力在話題內(nèi)的信息傳播廣度。
  • 用戶自身質(zhì)量:體現(xiàn)用戶信息傳播能力影響用戶的強(qiáng)度。

因此本文將這兩個(gè)度量指標(biāo)通過線性融合計(jì)算用戶在話題內(nèi)的信息傳播能力大小。

其中,θ1為核心用戶計(jì)算中用戶轉(zhuǎn)發(fā)影響力所占比重,θ2為用戶自身質(zhì)量所占比重;如設(shè)置θ1=θ2=0.5,表示認(rèn)為用戶轉(zhuǎn)發(fā)影響力、用戶自身質(zhì)量對(duì)核心用戶挖掘同等重要。該算法以社交網(wǎng)絡(luò)理論為基礎(chǔ),結(jié)合 PageRank 算法,既考慮微博信息轉(zhuǎn)發(fā)網(wǎng)絡(luò)特征,充分結(jié)合用戶轉(zhuǎn)發(fā)行為的時(shí)間特征,又結(jié)合用戶情緒傳遞性考慮微博用戶的質(zhì)量屬性特征,具體體現(xiàn)于對(duì)信息擴(kuò)散的推動(dòng)、對(duì)下級(jí)用戶的影響強(qiáng)度。

整體上看,能夠較好地反映核心用戶的綜合影響力。對(duì)于低復(fù)雜度算法算法:綜合考慮影響用戶核心程度的各種指標(biāo),本文提出一種結(jié)合關(guān)注關(guān)系、轉(zhuǎn)發(fā)鏈路以及擴(kuò)散速率的核心用戶挖掘算法,對(duì)于不同的微博類型,可針對(duì)性對(duì)NZX值以及final-rank進(jìn)行賦權(quán),針對(duì)娛樂性新聞WNZX,Wfinal-rank可分別設(shè)置為0.8,0.2;針對(duì)政治性新聞,由于其穿透性更強(qiáng),轉(zhuǎn)發(fā)深度更深,WNZX,Wfinal-rank可分別設(shè)置為0.5,0.5。綜上定義核心度計(jì)算公式為:

四、傳播規(guī)模預(yù)測(cè)

在微博網(wǎng)絡(luò)中,用戶之間是通過“關(guān)注-被關(guān)注”聯(lián)系在一起的,每一個(gè)用戶都可以關(guān)注其他用戶,關(guān)系網(wǎng)絡(luò)可以看作是一個(gè)有向圖。

4.1 結(jié)構(gòu)化與非結(jié)構(gòu)化傳播

經(jīng)典的傳播理論認(rèn)為信息的傳播可以分為“大眾傳播”和“人際傳播”。隨著社會(huì)網(wǎng)絡(luò)分析(SNA)方法不斷地發(fā)展,對(duì)于信息傳播規(guī)模的預(yù)測(cè)出現(xiàn)了過度“結(jié)構(gòu)”化現(xiàn)象(6),即過分強(qiáng)調(diào)網(wǎng)絡(luò)結(jié)構(gòu),忽略的信息傳播的宏觀性。個(gè)體間的相互作用對(duì)最終傳播規(guī)模有著重要影響,夸大其網(wǎng)絡(luò)結(jié)構(gòu)的作用,往往有悖實(shí)際情況。

微博的出現(xiàn)讓“非結(jié)構(gòu)化傳播”和“結(jié)構(gòu)化傳播”間的界限更加模糊,如微博信息擴(kuò)散途徑并不完全依賴于關(guān)注關(guān)系,還包括熱門推薦、熱搜榜單等都有可能是微博轉(zhuǎn)發(fā)源(附錄Ⅲ(1))。

圖5 結(jié)構(gòu)化、非結(jié)構(gòu)化轉(zhuǎn)發(fā)示意圖結(jié)果

圖6?不同網(wǎng)絡(luò)結(jié)構(gòu)化轉(zhuǎn)發(fā)在對(duì)應(yīng)轉(zhuǎn)發(fā)深度中比重

4.2 非結(jié)構(gòu)化傳播預(yù)測(cè)

由上文的分析可知,本次競(jìng)賽提供的30條熱門微博的轉(zhuǎn)發(fā)數(shù)據(jù)不嚴(yán)格或者很少嚴(yán)格依據(jù)網(wǎng)絡(luò)關(guān)注關(guān)系結(jié)構(gòu),因此本文提出基于傳染病模型的非結(jié)構(gòu)化的轉(zhuǎn)發(fā)預(yù)測(cè)方法,該方法依賴于轉(zhuǎn)發(fā)規(guī)模隨時(shí)間的變化數(shù)據(jù)學(xué)習(xí)參數(shù),圖為30條微博轉(zhuǎn)發(fā)規(guī)模的變化曲線,時(shí)間步長(zhǎng)為一個(gè)小時(shí)。

圖7?30條微博轉(zhuǎn)發(fā)數(shù)隨時(shí)間變化情況

SIRE模型定義:基于研究傳染病傳播的艙室(SIR)模型的基礎(chǔ)上增加非結(jié)構(gòu)化轉(zhuǎn)發(fā)行為。

  • 當(dāng)用戶參與單條微博信息的轉(zhuǎn)發(fā)之后,基本不會(huì)再次轉(zhuǎn)發(fā),成為 “免疫用戶”。
  • 信息傳播不全依賴于網(wǎng)絡(luò)關(guān)系(關(guān)注關(guān)系網(wǎng)絡(luò)),增加“外來(lái)用戶”。
  • 結(jié)合微博特性的傳播預(yù)測(cè)模型:SIRE(Susceptible-Infectious-Recovered-External)模型。

圖8?SIRE模型示意圖

在實(shí)際的微博傳播過程中,比如某用戶發(fā)布一條微博,最先被該用戶的粉絲看到,并可能引起轉(zhuǎn)發(fā)行為。當(dāng)用戶轉(zhuǎn)發(fā)過這條微博之后,基本不會(huì)再次進(jìn)行轉(zhuǎn)發(fā),從而成為這條微博的“免疫用戶”。由于微博內(nèi)容在網(wǎng)絡(luò)中進(jìn)行傳播,也存在著不是微博用戶的粉絲而進(jìn)行的轉(zhuǎn)發(fā)行為,即非結(jié)構(gòu)化轉(zhuǎn)發(fā)。因此,本文在基于研究sir傳染病傳播模型的基礎(chǔ)上增加非結(jié)構(gòu)化轉(zhuǎn)發(fā)用戶,即“外來(lái)用戶”,提出滿足微博特性的傳播預(yù)測(cè)模型,定義為SIRE模型。

該模型滿足以下假設(shè):

  1. 假設(shè)1:用戶發(fā)布或者轉(zhuǎn)發(fā)用戶的狀態(tài)為感染用戶,其直接粉絲的狀態(tài)為易感染用戶。
  2. 假設(shè)2:微博用戶從易感染用戶成為感染用戶的概率為β。
  3. 假設(shè)3:用戶從感染轉(zhuǎn)態(tài)成為免疫狀態(tài)的概率為α。
  4. 假設(shè)4:沒有關(guān)注這些感染用戶的狀態(tài)為外來(lái)用戶。此類用戶自主閱讀微博并轉(zhuǎn)發(fā)的概率為γ。

當(dāng)給定某條微博,t時(shí)刻,在SIRE模型中:

  • S(t)表示t時(shí)刻易感染用戶的數(shù)量,該部分人群可能會(huì)進(jìn)行轉(zhuǎn)發(fā);
  • I(t)表示已轉(zhuǎn)發(fā)改微博的用戶,并且具有傳播力的人群;
  • R(t)表示免疫用戶R的數(shù)量,該類用戶表示t時(shí)刻不會(huì)再轉(zhuǎn)發(fā)該微博的用戶人數(shù)。

具體微分方程表達(dá)如下:

  • 假設(shè)從t時(shí)刻起,單位時(shí)間內(nèi)一個(gè)感染用戶可能傳播的易感染用戶為S(t),轉(zhuǎn)發(fā)傳播的概率值為β,因此單位時(shí)間內(nèi)變化的易染人群為β*S(t)*I(t)。(2)t時(shí)刻,單位時(shí)間內(nèi)增加的免疫用戶的數(shù)量為aI(t)。
  • t時(shí)刻,單位時(shí)間內(nèi)外來(lái)用戶轉(zhuǎn)發(fā)該微博的概率為γ,由外來(lái)用戶轉(zhuǎn)化為感染用戶的數(shù)量為rE(t)。
  • 易感的減少量減去轉(zhuǎn)化為免疫的用戶加上外來(lái)用戶轉(zhuǎn)發(fā)量為此時(shí)的感染數(shù)量。

設(shè)置微博發(fā)布時(shí)刻為初始狀態(tài)狀態(tài),即t0,此時(shí)只有發(fā)布用戶為感染用戶,粉絲為易感染用戶,即t=t0,I(t0)=1,E(t0)=0,S(t0)=N,N為微博發(fā)布者的粉絲數(shù),可通過博文追溯得到。其中,參數(shù)β,α,γ,?,設(shè)置β,?為時(shí)域衰減,以符合實(shí)際傳播情況,其值采用馬爾科夫蒙特卡洛方法求解,確定最優(yōu)值。

圖為#中國(guó)女排衛(wèi)冕世界杯冠軍#與# 視覺中國(guó)#轉(zhuǎn)發(fā)預(yù)測(cè)擬合效果。

圖9?擬合效果

五、結(jié)構(gòu)化預(yù)測(cè)方法的展望與想法

5.1 轉(zhuǎn)發(fā)行為影響因素提取

微博信息傳播的主體機(jī)制就是轉(zhuǎn)發(fā)行為,能對(duì)微博轉(zhuǎn)發(fā)產(chǎn)生影響的因素有很多,不同的因素對(duì)用戶最終轉(zhuǎn)發(fā)與否的貢獻(xiàn)值也并不相同,我們提出用戶核心度、信息強(qiáng)化效應(yīng)為用戶轉(zhuǎn)發(fā)的影響因素。

5.1.1 用戶影響力

用戶核心度表達(dá)了用戶在社交網(wǎng)絡(luò)結(jié)構(gòu)中的重要程度,具體體現(xiàn)于一個(gè)人的行為引起其他人的行為改變的能力?,F(xiàn)存眾多基于網(wǎng)絡(luò)結(jié)構(gòu)的節(jié)點(diǎn)影響力計(jì)算方法(7),如K核中心性(K-shell)、介數(shù)中心性(Betweenness)等。Sergey Brin和Lawrence Page(8)提出的經(jīng)典的網(wǎng)頁(yè)排序算法PageRank值,Cataldi等人(9)考慮到微博等社交網(wǎng)絡(luò)的連邊關(guān)系與網(wǎng)頁(yè)中的連接的相似性,將PageRank算法應(yīng)用于社交網(wǎng)絡(luò)中影響力節(jié)點(diǎn)的判斷并可以較好展現(xiàn)網(wǎng)絡(luò)中的用戶核心程度,因此本文使用PageRank值作為節(jié)點(diǎn)影響力評(píng)價(jià)指標(biāo)(附錄Ⅲ(2))。

5.1.2 信息強(qiáng)化效應(yīng)

在社交網(wǎng)絡(luò)中,因?yàn)橛脩糸g存在趨同性,某些行為也具有類似信息的傳播效果,例如同齡人的飲食行為(10),微博用戶的轉(zhuǎn)發(fā)行為等。我們對(duì)30條熱門微博8萬(wàn)多用戶參與的114856次轉(zhuǎn)發(fā)行為分析時(shí)有如下發(fā)現(xiàn)(附錄Ⅲ(3))。

  • 有68340次轉(zhuǎn)發(fā)(59%),其用戶的關(guān)注列表中并沒有參與該條微博轉(zhuǎn)發(fā)的用戶,可能轉(zhuǎn)自推薦或者熱搜,這也是微博信息傳播的非結(jié)構(gòu)化體現(xiàn)。
  • 存在23843次轉(zhuǎn)發(fā),其參與者的關(guān)注列表中有一位參與該條信息轉(zhuǎn)發(fā)的用戶。
  • 有22673次轉(zhuǎn)發(fā)受到2次及以上激活,社會(huì)強(qiáng)化效應(yīng)不可忽視。

5.2?基于強(qiáng)化效應(yīng)預(yù)測(cè)模型

本文提出一種基于微博關(guān)注關(guān)系、用戶影響力以及信息強(qiáng)化效應(yīng)的傳播規(guī)模預(yù)測(cè)模型,該模型在線性閾值模型(LT)(11)的基礎(chǔ)上著重考慮不同用戶影響力。該模型分為兩個(gè)部分,啟動(dòng)部分及后續(xù)傳播部分。啟動(dòng)部分考慮根微博用戶u對(duì)粉絲集合fans(u)的影響力PR(u),用戶v轉(zhuǎn)發(fā)閾值設(shè)置為0到該粉絲所有關(guān)注用戶(Fv)PR值之和間的隨機(jī)數(shù),即γv∈[0,sum(PR(Fv))],若PR(u)>γv,則用戶v不轉(zhuǎn)發(fā);若PR(u)≤γv,則用戶v轉(zhuǎn)發(fā)。后續(xù)傳播部分因?yàn)樾畔⒌娜哂嗨源嬖趶?qiáng)化效應(yīng),對(duì)用戶的總影響力Influce(v)計(jì)算如下:

用戶v轉(zhuǎn)發(fā)閾值設(shè)置為0到該粉絲所有關(guān)注用戶(Fv)PR值之和間的隨機(jī)數(shù),與LR模型不同,當(dāng)v所關(guān)注用戶近90%都轉(zhuǎn)發(fā)了該微博,則用戶v必參與轉(zhuǎn)發(fā)。

循環(huán)上述算法二直至不再增加轉(zhuǎn)發(fā)節(jié)點(diǎn),可以得到基于關(guān)注關(guān)系結(jié)構(gòu)的轉(zhuǎn)發(fā)規(guī)模Net_Scale。結(jié)合上文對(duì)8萬(wàn)多用戶的轉(zhuǎn)發(fā)行為分析,59%的用戶的轉(zhuǎn)發(fā)不依賴于關(guān)注關(guān)系,所以有最終傳播規(guī)模:

5.3?基于鏈路預(yù)測(cè)模型

分析本次比賽提供的數(shù)據(jù)之后,本文將微博信息轉(zhuǎn)發(fā)預(yù)測(cè)問題轉(zhuǎn)化為鏈路預(yù)測(cè)問題。鏈路預(yù)測(cè)的主要目的是基于推測(cè)網(wǎng)絡(luò)節(jié)點(diǎn)之間存在鏈路的概率。本文主要研究基于轉(zhuǎn)發(fā)關(guān)系的微博傳播網(wǎng)絡(luò)中的鏈路預(yù)測(cè)問題(附錄Ⅳ(1))。

本文采用轉(zhuǎn)發(fā)數(shù)據(jù)對(duì)不同的指標(biāo)進(jìn)行對(duì)比分析,將數(shù)據(jù)及按照0.85:0.15的比例切分訓(xùn)練集和測(cè)試集。分別嘗試Adamic-Adar,Jaccard Coefficient, Preferential Attachment, Node2vec, Variational Graph Auto-Encoders等鏈路預(yù)測(cè)方法,衡量鏈路預(yù)測(cè)算法精度的指標(biāo)主要有AUC和Precision,其中AUC從整體上衡量算法的精確度,Precision只考慮排在前L位的邊是否預(yù)測(cè)準(zhǔn)確。仿真結(jié)果發(fā)現(xiàn)Node2vec, Variational Graph Auto-Encoders,?Spectral Clustering 在ROC得分和PR得分上要優(yōu)于Adamic-Adar,Jaccard Coefficient, Preferential Attachment(詳見附錄Ⅳ(2))。

六、結(jié)論與展望

本文分析了新浪微博30條熱門信息轉(zhuǎn)發(fā)鏈路,提出了對(duì)于真實(shí)傳播網(wǎng)絡(luò)的核心傳播者發(fā)現(xiàn)算法,該算法綜合考慮用戶直接帶來(lái)的轉(zhuǎn)發(fā)量,以及對(duì)信息后續(xù)傳播的影響,提出用戶核心度,轉(zhuǎn)發(fā)速率指標(biāo),從時(shí)間、空間角度量化用戶貢獻(xiàn)值,實(shí)現(xiàn)單條微博轉(zhuǎn)發(fā)中用戶重要程度排名。

本文還深入分析了轉(zhuǎn)發(fā)鏈路與最終傳播規(guī)模的內(nèi)在關(guān)系,提出了一種基于SIRE的傳播規(guī)模預(yù)測(cè)模型,此外,想法拓展中提出一種基于影響力的轉(zhuǎn)發(fā)閾值模型,該模型分為啟動(dòng)部分和后續(xù)傳播部分,綜合考慮了用戶在網(wǎng)絡(luò)結(jié)構(gòu)中的影響力以及社會(huì)行為強(qiáng)化效應(yīng),通過仿真計(jì)算的方法預(yù)測(cè)傳播規(guī)模,最后嘗試了幾種鏈路預(yù)測(cè)算法用于信息傳播模型研究。社交網(wǎng)絡(luò)上的信息傳播機(jī)制相對(duì)復(fù)雜,其一定的傳播機(jī)理附近存在大量的隨機(jī)性與不確定性,受限于用戶的興趣愛好、轉(zhuǎn)發(fā)習(xí)慣、甚至情緒的影響。

單從結(jié)構(gòu)上、宏觀上都無(wú)法準(zhǔn)確描述其具體傳播范式。實(shí)現(xiàn)真實(shí)準(zhǔn)確的轉(zhuǎn)發(fā)規(guī)模預(yù)測(cè),即要考慮結(jié)構(gòu)上的“內(nèi)部影響”,也要考慮宏觀層面的“外部影響”,以及結(jié)合用戶習(xí)慣與博文屬性等等因素。只考慮信息傳播鏈路、用戶網(wǎng)絡(luò)結(jié)構(gòu)等特征無(wú)法實(shí)現(xiàn)對(duì)于真實(shí)熱門信息的全面挖掘。用戶探索是發(fā)現(xiàn)社交信息傳播模式的核心,新浪微博擁有海量用戶,來(lái)自社會(huì)的各個(gè)層面,用節(jié)點(diǎn)代表用戶,用連邊代表關(guān)系是理想化的拓?fù)淠P?,方便?jì)算卻難以精準(zhǔn)進(jìn)行人群畫像,從而忽略眾多信息。

此外,本文對(duì)于信息強(qiáng)化效應(yīng)的量化還有待提高,可在大規(guī)模社交網(wǎng)絡(luò)上使用多種傳播模型做多次信息傳播仿真,這也是下一步的工作。

尋找信息傳播可計(jì)算的基因遠(yuǎn)遠(yuǎn)不是幾萬(wàn)行數(shù)據(jù)、幾千行代碼可以實(shí)現(xiàn)的,不確定的時(shí)代給計(jì)算傳播學(xué)更多機(jī)遇與挑戰(zhàn),在線社交網(wǎng)絡(luò)為信息傳播研究帶來(lái)極好的契機(jī),推薦系統(tǒng)與社交關(guān)系改變了用戶接受信息的方式,社交媒體與輿論大v創(chuàng)造了用戶的信息環(huán)境,探索社交網(wǎng)絡(luò)信息傳播本質(zhì)對(duì)大型社會(huì)網(wǎng)絡(luò)研究將是巨大的貢獻(xiàn)。

參考文獻(xiàn):

1. Fan L, Lu Z, Wu W, Thuraisingham B, Ma H, Bi Y, editors. Least Cost Rumor Blocking in Social Networks. international conference on distributed computing systems; 2013.

2. Liu D, Jing Y, Zhao J, Wang W, Song G. A Fast and Efficient Algorithm for Mining Top-k Nodes in Complex Networks. Scientific Reports. 2017;7(1):43330.

3. Richardson M, Domingos P, editors. Mining knowledge-sharing sites for viral marketing. knowledge discovery and data mining; 2002.

4. ?宮秀文,張佩云.基于PageRank的社交網(wǎng)絡(luò)影響最大化傳播模型與算法研究[J].計(jì)算機(jī)科學(xué),2013,40(S1):136-140.

5. ?丁兆云,賈焰,周斌.微博數(shù)據(jù)挖掘研究綜述[J].計(jì)算機(jī)研究與發(fā)展,2014,51(04):691-706.

6. ?許小可.社交網(wǎng)絡(luò)上的計(jì)算傳播學(xué)[D].北京:高等教育出版社, 2015:2-3.

7. ?任曉龍,呂琳媛.網(wǎng)絡(luò)重要節(jié)點(diǎn)排序方法綜述[J].科學(xué)通報(bào),2014,59(13):1175-1197.

8.??Page L, Brin S, Motwani R, et al. The PageRank citation ranking: Bring order to the Web.

Stanford University Technical Report SIDL-WP-1999-0120, 1999.

9.??Cataldi M, Caro L D, Schifanella C. Emerging topic detection on Twitter based on

temporal and social terms evaluation[C]. In MDMKDD’10, 2010: 4-13.

10. 許小可.社交網(wǎng)絡(luò)上的計(jì)算傳播學(xué)[D].北京:高等教育出版社, 2015:164-199.

11.? Granovetter M. Threshold Models of Collective Behavior. American Journal of Sociology. 1978;83(6):1420-43

附錄Ⅰ

注:圖示為30條微博轉(zhuǎn)發(fā)趨勢(shì)情況,橫、縱坐標(biāo)分別為轉(zhuǎn)發(fā)深度、參與轉(zhuǎn)發(fā)的用戶總數(shù)。

我們發(fā)現(xiàn)公共關(guān)注事件,例如“龐氏青年水氫車”,“女排奪冠”等話題,其往往能引起群體的憤怒或喜悅,信息穿透性更強(qiáng),擴(kuò)散范圍更廣泛,平均轉(zhuǎn)發(fā)深度高達(dá)20;興趣導(dǎo)向事件,例如“AI換臉”,“姐姐來(lái)了”,“易烊千璽”等文娛微博,符合部分用戶的興趣,轉(zhuǎn)發(fā)深度較低,擴(kuò)散范圍較為集中,轉(zhuǎn)發(fā)深度均值為5~6左右。針對(duì)同一事件的不同文本描述,例如“德云社弟子眾籌百萬(wàn)”事件,存在不同的擴(kuò)散深度與傳播規(guī)模,其受限于博文新穎性、發(fā)布用戶關(guān)鍵性,其中博文能直接引起“大眾情緒”的轉(zhuǎn)發(fā)深度高達(dá)24。

注:通過對(duì)30條各類型微博的轉(zhuǎn)發(fā)深度分析得知,微博的最終傳播規(guī)模與轉(zhuǎn)發(fā)深度存在正相關(guān)性,相關(guān)系數(shù)為0.339518;去除轉(zhuǎn)發(fā)深度24,規(guī)模2729與轉(zhuǎn)發(fā)深度5,規(guī)模8356的離群點(diǎn)后相關(guān)系數(shù)高達(dá)0.66。附錄Ⅱ(1)

注:圖示為剔除關(guān)注數(shù)量高于993的用戶后剩余用戶關(guān)注數(shù)分布,大部分用戶關(guān)注數(shù)100~200檔.(2)

注:圖示為NZX值與節(jié)點(diǎn)引發(fā)轉(zhuǎn)發(fā)數(shù)之間的關(guān)系,橫、縱坐標(biāo)分別為節(jié)點(diǎn)直接引發(fā)的轉(zhuǎn)發(fā)數(shù)、原始NZX值整數(shù)擴(kuò)樣。(3)

注:刪除根微博用戶,觀察剩余用戶NZX值與引起的轉(zhuǎn)發(fā)量之間的關(guān)系,其整體上體現(xiàn)線性關(guān)系。圖示的離群點(diǎn)用戶,其引起的直接轉(zhuǎn)發(fā)數(shù)不多但其中存在“裂變點(diǎn)”,故NZX值較大。附錄Ⅲ(1)

注:推薦系統(tǒng)的發(fā)展使信息推薦更加符合用戶的興趣,精準(zhǔn)投遞用戶感興趣的內(nèi)容,極大促成了用戶面向非關(guān)注結(jié)構(gòu)的轉(zhuǎn)發(fā)行為;快節(jié)奏的生活壓縮人們?cè)谏缃痪W(wǎng)絡(luò)上消耗的時(shí)間,部分用戶為了信息獲取的高效性、及時(shí)性、全面性往往格外關(guān)注熱搜榜單,加之熱搜的形成源自用戶的普遍關(guān)注,也促成了用戶面向非關(guān)注結(jié)構(gòu)的轉(zhuǎn)發(fā)行為。(2)

注:其中PR(ui)為用戶ui的PageRank值;F(ui)為用戶ui的粉絲集合;?O(vj)為用戶?vj關(guān)注的用戶數(shù);?d為阻尼系數(shù)(Damping Factor),0<d<1。(3)

注:圖為參與轉(zhuǎn)發(fā)的用戶的關(guān)注列表中,同時(shí)參與該微博轉(zhuǎn)發(fā)的用戶數(shù)(被激活的次數(shù)),社會(huì)行為強(qiáng)化效應(yīng)的存在已被證實(shí)且強(qiáng)化效果并不呈線性增加,如存在一位與用戶直接相連的肥胖好友(一度好友),用戶的肥胖風(fēng)險(xiǎn)將增加45%,對(duì)于二度好友增加20%,三度好友增加10%;對(duì)于轉(zhuǎn)發(fā)行為的強(qiáng)化效應(yīng)定量化表示仍是下一步的工作。附錄Ⅳ(1)

注:左圖所示,用戶B轉(zhuǎn)發(fā)了A的微博,即形成一條有向連邊。用Gmsg=(Vmsg′Emsg)表示,其中Vmsg′={v1,v2,…vn}?Vuser是微博信息msg在Gmsg上傳播過程所覆蓋的用戶集合,Emsg={eij|1≤i≤m,1≤j≤m}?Euser,eij=1表示信息msg從用戶vi傳播到了用戶vj,否則eij=0。

右圖描述信息msg在傳播網(wǎng)絡(luò)中的鏈路預(yù)測(cè)問題,微博傳播網(wǎng)絡(luò)中的鏈路預(yù)測(cè)是預(yù)測(cè)用戶采取轉(zhuǎn)發(fā)行為的概率,當(dāng)預(yù)測(cè)的轉(zhuǎn)發(fā)概率大于設(shè)定的閾值時(shí),會(huì)認(rèn)為用戶轉(zhuǎn)發(fā)微博內(nèi)容。(2)表1?鏈路預(yù)測(cè)方法比較

注:可以看出Node2vec, Variational Graph Auto-Encoders,?Spectral Clustering 在ROC得分和PR得分上要優(yōu)于Adamic-Adar,Jaccard Coefficient, Preferential Attachment。附錄Ⅴ

注:出道即巔峰型擴(kuò)散網(wǎng)絡(luò),此類微博壽命較短,用戶受興趣導(dǎo)向轉(zhuǎn)發(fā),影響力相對(duì)較小。

注:二次再爆發(fā)型擴(kuò)散網(wǎng)絡(luò),此類博文通過知名博主轉(zhuǎn)發(fā)后會(huì)再次引發(fā)擴(kuò)散“裂變”。

注:熱度漸衰減型網(wǎng)絡(luò),此類微博受眾用戶廣泛,信息滲透力強(qiáng),往往能激發(fā)用戶較為強(qiáng)烈的情緒或共鳴,壽命較長(zhǎng)。

 

本文由 @數(shù)據(jù)鍋 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash,基于CC0協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 不明覺厲,只怪自己當(dāng)年,數(shù)學(xué)是體育老師教的,先收藏為敬。

    來(lái)自北京 回復(fù)
专题
15362人已学习12篇文章
本专题的文章分享了数据产品经理的通用技能。
专题
16397人已学习12篇文章
本专题的文章分享了产品经理需要知晓的API接口知识。
专题
14393人已学习10篇文章
聚合支付作为对银行和第三方支付平台服务的拓展,能够提供多渠道支付方式,简化商家的支付对接。本专题的文章分享了聚合支付的设计思路。
专题
11869人已学习12篇文章
针对新零售行业的发展现状,面向新零售企业的SaaS系统,可以如何进行系统架构和规划?本专题的文章分享了新零售saas架构指南。
专题
15989人已学习12篇文章
区别于普通业务,中台能让系统更好地满足业务需求,提升系统效率。本专题的文章分享了如何搭建业务中台。