深入理解熱度算法:如何做好內(nèi)容推薦?
熱門推薦是互聯(lián)網(wǎng)產(chǎn)品中最常見的功能之一,比如“大家都在看”、“今日熱賣榜”這些在各大網(wǎng)站上都隨意可見,堪稱標(biāo)配。而其中推薦算法的好壞,則不僅密切關(guān)系著內(nèi)容對用戶的吸引程度,也同時反應(yīng)了產(chǎn)品對內(nèi)容的分發(fā)能力。
在一個產(chǎn)品中,如果不能及時發(fā)掘新鮮內(nèi)容,并將優(yōu)秀內(nèi)容傳播出去,甚至引爆,那么整個內(nèi)容生態(tài)也難以搭建起來。
雖然時下,大家更有興致討論的都是個性化推薦,但它并不適用于所有產(chǎn)品,尤其是初創(chuàng)的、小眾的產(chǎn)品。因為個性化推薦它必需依賴大量的用戶數(shù)據(jù)以及對內(nèi)容深入的挖掘,若不然強行個性化推薦只會適得其反。
這次,本文主要探討實用性更強熱度算法,它也并非想象中的簡單粗暴,反而有不少只屬于它的亮點。
本文不帶一個數(shù)字公式,可安心食用^_^
一、基本原理
其實,在熱度算法表層之下,還有不少的基礎(chǔ)原理在支撐著它,但在本文中將不先擴展,而是以最普遍運用的牛頓冷卻定律為例。
它的特點在于,引入了時間衰減的概念。
牛頓冷卻定律若用函數(shù)來代表,則為:
舉個例子:
當(dāng)一條微博產(chǎn)生后,隨著用戶的瀏覽、點贊、轉(zhuǎn)發(fā)、它的熱度逐漸攀升,進(jìn)入榜單。
但因為這條內(nèi)容本身具有時效性,如果不考慮這點,那么它可能長期霸榜,所以我們必須考慮到如何令它的熱度隨著時間的推移而衰減,從而令新的微博有機會取而替代,達(dá)到熱門榜單動態(tài)變化的效果。
二、影響因素
在理解熱度算法的基礎(chǔ)原理后,我們可以得知影響熱度計算的三個因素:
1.?原始熱度
首先是原始熱度,正如內(nèi)容千差萬別,再加上產(chǎn)品本身的定位、偏愛。
我們不太可能去為所有的內(nèi)容賦予同樣的初始熱度,就比如一個大V發(fā)的微博和一個好友發(fā)的微博,以及一個陌生小號發(fā)的微博,它們從一開始就難以相提并論。
而我們又該如何給每個內(nèi)容賦予不同的原始熱度呢?
可以從兩個維度出發(fā):
(1)創(chuàng)作者,即創(chuàng)作這個內(nèi)容的人,也可以是機構(gòu)。
還是以微博為例,微博對用戶做了不少劃分,個人、垂直領(lǐng)域的知名博主、自媒體、機構(gòu)、企業(yè)、政府等等,不同類型的身份也隱含他們的創(chuàng)作能力和傳播價值。
所以在初始熱度的考量上,我們就會考慮是否讓大V用戶發(fā)表的新內(nèi)容更先一步的進(jìn)入熱榜。
當(dāng)然,其它產(chǎn)品就算不像微博那樣對用戶有明確的歸類,也可以利用一些基礎(chǔ)的用戶數(shù)據(jù),比如:
- 注冊時長:是否激勵新用戶,還是優(yōu)待老用戶?
- 活躍程度:一個投入更多時間精力的常駐用戶是不是更大概率會創(chuàng)作出優(yōu)秀內(nèi)容?
(2)內(nèi)容屬性,則是從內(nèi)容本身出發(fā),根據(jù)它的類別、字?jǐn)?shù)長度、豐富度、流行指數(shù)等有所側(cè)重。
就比如在熱門微博管理規(guī)范,就表示過含多張的圖片,含#話題的就會加重?zé)岫龋鴰怄湹?,已有相似?nèi)容的則會降低熱度。
具體哪些內(nèi)容該賦予更高的熱度,哪些內(nèi)容又該冷處理,關(guān)鍵看這個產(chǎn)品的內(nèi)容調(diào)性和氛關(guān)鍵可能看這個產(chǎn)品中主流用戶的偏愛,以及運營人員想營造什么樣的內(nèi)容生態(tài)。
2. 互動熱度
初始熱度這一因素雖然看上去具有極大的天然優(yōu)勢,但往往在實際推薦算法中也不會占據(jù)主要的地位。
比如就算是一條超級大V發(fā)的和一條普通用戶發(fā)的內(nèi)容,可能在初始熱度上差距也不會特別大,因為內(nèi)容是否真的夠好,還是要靠更廣泛的用戶來檢驗。
這也就是影響熱度的第二因素——互動熱度,這也是最為重要的,也可以理解為用戶的行為數(shù)據(jù)。
我們需要先定義哪些用戶行為可以提高這條內(nèi)容的熱度,像對一條微博的瀏覽、點贊、評論、轉(zhuǎn)發(fā)、分享等,都可以代表了用戶對它的感興趣程度。
同時需要注意的是,不同行為的權(quán)重應(yīng)該也是不同的。
比如,評論明顯比點贊更有誠意,所以我們在計算互動熱度時,可以對這些用戶行為進(jìn)行評級,瀏覽+1分,點贊+3分,評論+10分,轉(zhuǎn)發(fā)+15分,分享+15分。
且在實際產(chǎn)品運營過程中,我們還需要根據(jù)用戶規(guī)模、周期效應(yīng)不斷調(diào)整用戶的行為分,同時考慮如何反作弊,若規(guī)則太生硬,是不是就會被有心人利用,這點后面會再探討。
3.?隨時間衰減的熱度
由于大部分內(nèi)容是屬于一次消費型,用戶看過也就過了。若熱門推薦的榜單總是固定那幾條,他可能很快就覺得乏味,從而轉(zhuǎn)向別的產(chǎn)品。所以我們自然希望內(nèi)容能不斷更新,而若只看初始熱度+互動熱度,那么后來者必定很難超越前者。
所以,我們還需要考慮另一個因素——隨時間衰減的熱度。
以社會熱點來說,往往一件事情的時效性是在24小時內(nèi)。
比如一項政策出臺,大家都在關(guān)注,若不能及時推送,用戶很可能已從別的渠道得知;而新鮮勁一過,這條內(nèi)容再占著榜單也少有人問津了。
所以我們可以制定一個策略,這個內(nèi)容在發(fā)布后,隨著時間的推移,熱度也開始逐步衰減。
同時需要注意的是,時間衰減通常不是線性的。
畢竟結(jié)合現(xiàn)實情況來看,一條新內(nèi)容產(chǎn)生后,我們可能先需要幾個小時去傳播它,看看它的熱度反應(yīng)。
在剛開始這期間,可以不必過多的去考慮時間衰減;而到了有效傳播期之后,比如一條新聞過了24小時,那么我們就可以加重時間衰減的因素,盡量不讓用戶看到昨天的新聞。
三、如何進(jìn)行人為干預(yù):調(diào)整權(quán)重
上述的內(nèi)容已經(jīng)講完了熱度算法的核心內(nèi)容,通過理解原理和三大影響因素,相信大家已經(jīng)可以嘗試去設(shè)計一套適合自家產(chǎn)品的熱度算法了。
不過,在實際的內(nèi)容運營中,哪怕一套算法再可靠,我們有時候還是難免想要進(jìn)行一些人工干預(yù)。
這就涉及到了我們常用的一個手段:調(diào)整權(quán)重。
我們可以將權(quán)重這一因素,擴展到熱度算法中,如:
然后在運營后臺中,開放對內(nèi)容進(jìn)行加權(quán)、降權(quán)的功能。
權(quán)重調(diào)整其實另一方面也可以彌補熱度算法的不足,因為通過傳播去獲取熱度總是需要一定時間,可能沒辦法應(yīng)對突發(fā)的大熱點,而也有某些內(nèi)容明明在被持續(xù)關(guān)注著,但卻不得不隨著時間衰減退出熱榜。
四、偶然和極端
其實,除了上述我們預(yù)先規(guī)定好的因素外,還會有一些偶然的元素可能會影響到熱度算法。
比如,一條內(nèi)容在產(chǎn)品往往不止在熱榜中可見,我們還會通過其它的方式去傳播它,比如開屏、PUSH等,這些都會帶來巨量的熱度提升,而不是它自身在熱榜里競爭所得,若不剔除這些偶然因素,則熱榜的前幾名很有可能就充滿了運營導(dǎo)向的味道。
而且,在設(shè)計熱度算法時,需要多考慮極端情況,比如若在網(wǎng)站流量不大的情況下,一條初始熱度最高的內(nèi)容,是不是可能永久無法被初始熱量最低的內(nèi)容超越?
五、反作弊
在一些知名產(chǎn)品中,熱門榜單往往伴隨著數(shù)據(jù)造假,如果我們不能有效的反作弊,那么所謂熱榜則相當(dāng)于名存死亡,成了營銷者的聚集之地。
而至于如何反作弊呢,此文篇幅有限,不做深入,就先拋磚引玉下,比如:
1. 將不同用戶對互動熱度的貢獻(xiàn)再次分級
前文提到了我們需要對用戶的不同行為分級,貢獻(xiàn)不同的互動熱度;現(xiàn)在考慮到許多刷數(shù)據(jù)者使用都是批量小號,具有一些區(qū)別于正常用戶的特征,比如注冊時長慢,活躍度低。
那我們就可以對用戶進(jìn)行分群,比如新用戶的點贊+0.3分,正常用戶的點贊+1分,從而抬高了數(shù)據(jù)造假的難度和成本。
2.?實時監(jiān)控異常數(shù)據(jù),若發(fā)現(xiàn)違規(guī),將人工降權(quán)
因為數(shù)據(jù)造假是很難模擬出像優(yōu)秀內(nèi)容那樣的熱度上升曲線,所以可以通過監(jiān)控數(shù)據(jù)波動,來判斷這條內(nèi)容是否為自然增長,若察覺存在違規(guī)現(xiàn)象,則運營可以通過降權(quán)進(jìn)行處罰。
六、抖音視頻的推薦算法
講完枯燥的理論,最后,再給大家分享下抖音是如何做內(nèi)容推薦的,希望能幫助你更好的理解熱度算法。
首先,抖音有一個流量池的概念,不論新人還是網(wǎng)紅,當(dāng)用戶新發(fā)一條視頻后,抖音都會將它推薦給一定的人,即啟動流量,可能是300-1000人。
然后根據(jù)這條視頻在流量池內(nèi)的數(shù)據(jù)表現(xiàn),比如完播率、點贊率、評論數(shù)、轉(zhuǎn)發(fā)率等,再來決定是否要將這條視頻推薦給更多人。
而在數(shù)據(jù)達(dá)標(biāo)之后,抖音會再將這條視頻引向更大的流量池,讓新的1W-10W人看到,即疊加推薦,以此類推,數(shù)據(jù)越好,疊加越多的流量。
同時,上述所說的流量池是有區(qū)間的,決定具體數(shù)值,則就是上述影響因素的概念。
抖音里的影響因素是哪些呢?
- 從創(chuàng)作者來看,比如注冊信息、粉絲數(shù)、歷史視頻數(shù)、以往成績等。
- 從內(nèi)容來看,比如視頻畫質(zhì)、是否原創(chuàng)、是否獨特等。
總結(jié)下,熱度算法運用到具體產(chǎn)品中,并非要死板的照搬公式,而且要結(jié)合運營模式,也可以多點變通,就比如抖音,它將內(nèi)容推薦設(shè)計成了階段性的熱度試探,這種做法別出心裁,效果也很不錯。
本文由 @貓丸 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議
請教一下大家,同時存在時效性內(nèi)容和非時效內(nèi)容的情況下,大家如何設(shè)置隨時間衰減的熱度趨勢值?
很棒,以前沒有接觸過熱度算法,學(xué)到很多
早幼教
感謝分享
學(xué)習(xí)到不少,感謝分享