我們是怎么掉進(jìn)個(gè)性推薦的怪圈?
本文圍繞個(gè)性推薦展開了一系列的分析思考,并主要講了獨(dú)立因素推薦、融合因素推薦、推薦方式以及回聲室陷阱等內(nèi)容。
- 你剛在微信和朋友討論AJ款式,看公眾號(hào)就刷到了AJ的廣告,淘寶首頁(yè)也驚喜般地出現(xiàn)了AJ推薦;
- 晚上刷抖音總是刷個(gè)不停,感覺刷到的每一個(gè)視頻都有某個(gè)點(diǎn)能戳中自己,你陷入尋找刺激的循環(huán)。
為什這些APP都知道你在想要什么且清楚你的興奮點(diǎn),是他們監(jiān)控你的聊天記錄?
不,是你的個(gè)人基礎(chǔ)信息和行為數(shù)據(jù)告訴了他們你需要這些,他們就把你的需要主動(dòng)給到你罷了。
那他們是怎么做到的呢?下面我們就來(lái)簡(jiǎn)單探討下個(gè)性推薦。
這里是文章的結(jié)構(gòu)圖,圖和文章可以對(duì)照看,方便理解。
首先,個(gè)性推薦系統(tǒng)是為了解決信息過(guò)載,通過(guò)個(gè)性化推薦提高信息分發(fā)的效率和準(zhǔn)確性,使得用戶更有粘性而被廣泛使用的系統(tǒng)。通俗的說(shuō)他就是為了讓你更爽,你要什么我就給你什么。
這很美好,但這里有一個(gè)陷阱,意思是你不要什么我就少點(diǎn)給你或者不給你——你也就失去了與你意見相左的知識(shí)領(lǐng)域接觸的機(jī)會(huì),單一的內(nèi)容被推薦多了用戶也會(huì)感到疲勞。
個(gè)性推薦用在電商領(lǐng)域來(lái)說(shuō)應(yīng)該叫“精準(zhǔn)投放”——你想買什么淘寶就推薦給你什么,這像是雙贏的感覺。
但對(duì)于內(nèi)容領(lǐng)域(短視頻等)來(lái)說(shuō),只推薦你有興趣的內(nèi)容,刺激你興奮點(diǎn)的同時(shí)也讓你接觸世界的邊界越來(lái)越窄,沉浸于自己營(yíng)造的狹小的世界;難道我們進(jìn)入這種回音室的怪圈之后就無(wú)法破解了嗎?
(回音室效應(yīng):一些意見相近的聲音不斷重復(fù),令身處其中的多數(shù)人認(rèn)為這些聲音就是事實(shí)的全部。)
我們先不急著解答,待我們逐步探討下個(gè)性推薦的內(nèi)容后,自己就能解答以上的問(wèn)題;
獨(dú)立因素推薦
獨(dú)立因素推薦,就是推薦系統(tǒng)基于單個(gè)因素篩選的內(nèi)容或商品推送給用戶;我們?cè)诹私猹?dú)立因素推薦的同時(shí)也了解下推薦的兩種模式——被動(dòng)推薦和主動(dòng)推薦。
被動(dòng)推薦
推薦是用戶被動(dòng)的接收信息,需要用戶去觸發(fā)而產(chǎn)生的推薦結(jié)果。
例如淘寶上用戶依據(jù)價(jià)格區(qū)間的獨(dú)立因素篩選商品,這種行為完全依據(jù)用戶有意識(shí)的自主操作告訴淘寶我需要特定獨(dú)立因素的商品,淘寶后臺(tái)會(huì)依據(jù)你的輸入信息進(jìn)而對(duì)前端的你進(jìn)行反饋。
假如用戶不是選一個(gè)因素而是同時(shí)選擇價(jià)了格區(qū)間+發(fā)貨地區(qū)+品牌這三個(gè)獨(dú)立因素時(shí),這時(shí)后臺(tái)進(jìn)行篩選,把同時(shí)具備這幾個(gè)獨(dú)立因素的商品推薦給用戶,這只是多個(gè)獨(dú)立因素的簡(jiǎn)單物理標(biāo)簽相的加可以說(shuō)還是屬于獨(dú)立因素推薦的范疇。(當(dāng)然淘寶真實(shí)推薦結(jié)果更為復(fù)雜,因?yàn)橛猩唐犯?jìng)價(jià)排名,這些都會(huì)影響推薦的結(jié)果,目前是舉例說(shuō)明)
與之類似的還有網(wǎng)易云音樂(lè)的歌單廣場(chǎng),歌單廣場(chǎng)將歌單分為了流行、民謠、電子等不同的類別,每一個(gè)類別就是一個(gè)因素,用戶選擇哪個(gè)因素的標(biāo)簽,后臺(tái)系統(tǒng)就更新屬于該因素的歌單的數(shù)據(jù)給到前端界面上展示,這類都是獨(dú)立因素的被動(dòng)推薦。
主動(dòng)推薦
主動(dòng)推薦,由系統(tǒng)定時(shí)更新數(shù)據(jù)并主動(dòng)推薦到用戶面前,用戶打開界面就能接觸到主動(dòng)推薦的結(jié)果;如網(wǎng)易云音樂(lè)的熱歌榜,抖音的人氣熱搜榜等就是主動(dòng)推薦的方式。
但這種熱榜這種統(tǒng)一推薦的方式有一定程度的成馬太效應(yīng)——火的內(nèi)容會(huì)得到更多的曝光越來(lái)越火,但大部分人喜歡的內(nèi)容并不帶代表每一個(gè)用戶都是喜愛的,熱門推薦滿足用戶從眾心理的同時(shí)也忽略了用戶的個(gè)性差異體驗(yàn),所以就需要依據(jù)用戶個(gè)性的推薦來(lái)彌補(bǔ),隨著用戶對(duì)自我獨(dú)特性的感知越來(lái)越強(qiáng),需要個(gè)性化定制的需求也越來(lái)越明顯。如何讓特定的內(nèi)容滿足特定的用戶,讓用戶開開心心的走進(jìn)個(gè)性推薦的陷阱里就是接下來(lái)我們要講的重點(diǎn)。
融合因素推薦
融合因素推薦就是將幾個(gè)不同的因素依據(jù)特定算法融合而產(chǎn)生新的屬性標(biāo)簽,并推薦到與該屬性標(biāo)簽匹配的用戶手機(jī)上。
我們把融合因素推薦分為基于內(nèi)容本身屬性推薦、基于內(nèi)容屬性與用戶屬性協(xié)同推薦、基于相似用戶協(xié)同推薦這三種推薦方式。
基于內(nèi)容本身屬性推薦(推薦對(duì)象一般是所有人)
還是以抖音熱門短視頻為例,我們需要做的是依據(jù)內(nèi)容的本身屬性建立內(nèi)容畫像,用數(shù)據(jù)模型來(lái)表示內(nèi)容的特征。
由抖音熱搜榜可看到,我們把點(diǎn)贊數(shù)排名在前30的視頻放上熱搜榜。
當(dāng)然決定點(diǎn)贊數(shù)的因素除了視頻內(nèi)容本身的類型及質(zhì)量外,很大的關(guān)鍵還在于平臺(tái)給多少人推薦了這個(gè)視頻,即有多少人可以刷到了這個(gè)視頻。平臺(tái)判斷一個(gè)視頻是否值得推薦給更多的用戶群體,又與歷史用戶對(duì)視頻的交互行為息息相關(guān)。
例如:
短視頻平臺(tái)將一個(gè)審核過(guò)后的新視頻先推薦給10w人的基礎(chǔ)用戶池進(jìn)行播放展示,如果這10w人有很多人進(jìn)行完全播放、點(diǎn)贊、評(píng)論、轉(zhuǎn)發(fā)等操作,平臺(tái)就判斷該視頻為優(yōu)質(zhì)內(nèi)容進(jìn)而推薦給100w、1000w的用戶池如此類推。
如果該視頻在10w的展示量中大部分用戶對(duì)該視頻不感冒,很少播放完或點(diǎn)贊,就會(huì)減少該視頻的展示量或不會(huì)再推薦給更多的用戶。
這形成一個(gè)優(yōu)質(zhì)內(nèi)容能得到更多展示劣質(zhì)內(nèi)容減少展示的良性循環(huán)。(用戶池也分不同種類的用戶池,舉例用非真實(shí)數(shù)據(jù))
這樣判斷一個(gè)視頻能否進(jìn)入到下一個(gè)用戶池的標(biāo)準(zhǔn)就成為了關(guān)鍵,現(xiàn)實(shí)中這個(gè)標(biāo)準(zhǔn)是根據(jù)模型動(dòng)態(tài)變化的,現(xiàn)在我們先進(jìn)行標(biāo)準(zhǔn)的靜態(tài)分析這樣便于理解;根據(jù)下面初級(jí)的算法公式可看到一個(gè)視頻的優(yōu)質(zhì)程度與用戶對(duì)這個(gè)視頻的喜愛程度成正比,我們先用用戶的喜愛程度這個(gè)特性來(lái)反應(yīng)視頻的優(yōu)質(zhì)程度。
視頻優(yōu)質(zhì)度=用戶喜愛度 X 視頻質(zhì)量基數(shù) X 題材類別基數(shù) X 平臺(tái)廣告基數(shù)
影響用戶喜愛程度的獨(dú)立因素有用戶對(duì)視頻的平均播放時(shí)長(zhǎng)、點(diǎn)贊、評(píng)論、分享、關(guān)注以及不感興趣等操作,每一個(gè)操作都會(huì)為一個(gè)獨(dú)立因素增加數(shù)值;而且每個(gè)獨(dú)立因素對(duì)與平臺(tái)判斷用戶對(duì)視頻的喜愛程度的重要性是不同的,如分享>評(píng)論>點(diǎn)贊。我們用權(quán)重來(lái)表示,對(duì)喜愛度高的因素進(jìn)行數(shù)據(jù)加權(quán),數(shù)據(jù)加權(quán)一般有兩種常用方式:
自定義加權(quán):產(chǎn)品經(jīng)理、運(yùn)營(yíng)經(jīng)理依據(jù)平時(shí)的數(shù)據(jù)報(bào)表人為的定義這些獨(dú)立因素和設(shè)置權(quán)重因子的數(shù)值,這種方式比較直接也比較簡(jiǎn)單,但他局限于團(tuán)隊(duì)的自身經(jīng)驗(yàn),沒有經(jīng)過(guò)大數(shù)據(jù)的驗(yàn)證與現(xiàn)實(shí)還是有較大的偏差。
數(shù)據(jù)建模:數(shù)據(jù)建模簡(jiǎn)單的說(shuō)就是將時(shí)間變量、獨(dú)立因素、權(quán)重因子通過(guò)特定的算法公式進(jìn)行計(jì)算得出該視頻的一個(gè)優(yōu)質(zhì)度數(shù)值。根據(jù)這個(gè)數(shù)值進(jìn)行推薦和排名,隨著時(shí)間變量的改變,獨(dú)立因子、甚至是權(quán)重因子也會(huì)依據(jù)一定的函數(shù)關(guān)系進(jìn)行改變,整個(gè)模型的輸入和輸出都是動(dòng)態(tài)變化的,而且我們不斷的采集用戶行為數(shù)據(jù)用來(lái)訓(xùn)練模型使其更加接近現(xiàn)實(shí)預(yù)測(cè)的數(shù)值。
基于以上信息我們就可以粗劣的得出一張反映用戶對(duì)視頻喜愛程度的參考表,該表也可以反映出視頻的優(yōu)質(zhì)程度;
用戶喜愛度=(播放時(shí)長(zhǎng)量+點(diǎn)贊量+評(píng)論量+分享量 – 不感興趣量+…)X 權(quán)重因子 X 衰減因子
(正常情況下,需要對(duì)各個(gè)指標(biāo)做線性方程回歸分析,確定各個(gè)指標(biāo)具有獨(dú)立性后,再做權(quán)重分析,以上面表格是非真實(shí)數(shù)據(jù))
根據(jù)以上思路我們可以對(duì)視頻進(jìn)行優(yōu)質(zhì)程度和類型的評(píng)定,有了內(nèi)容畫像現(xiàn)在只需找到對(duì)這個(gè)視頻內(nèi)容感興趣的用戶把視頻推送給他就行了,下面就是我們要說(shuō)到的基于內(nèi)容屬性與用戶屬性的協(xié)同的推薦。
基于內(nèi)容屬性與用戶屬性協(xié)同推薦(推薦給特定屬性的人)
我們通過(guò)采集一個(gè)人的基礎(chǔ)信息和行為數(shù)據(jù)來(lái)對(duì)一個(gè)用戶做定性分析,得出一個(gè)用戶在互聯(lián)網(wǎng)及現(xiàn)實(shí)中的各種特征,所有特征整合在一起就成為一個(gè)代表現(xiàn)實(shí)中用戶的虛擬畫像。
構(gòu)建用戶畫像數(shù)據(jù)會(huì)用到靜態(tài)和動(dòng)態(tài)兩類數(shù)據(jù):
- 靜態(tài)用戶畫像數(shù)據(jù):我們?cè)谧?cè)APP時(shí)通常會(huì)輸入姓名、年齡、性別、允許獲取位置、這些基礎(chǔ)信息相對(duì)穩(wěn)定。
- 動(dòng)態(tài)用戶畫像數(shù)據(jù):用戶在平時(shí)生活對(duì)手機(jī)產(chǎn)生的操作行為,如你玩過(guò)的游戲、關(guān)注的公眾號(hào)、消費(fèi)記錄,有沒有房貸車貸發(fā)過(guò)紅包買過(guò)保險(xiǎn),這些行為最后都會(huì)變成幾千個(gè)事實(shí)標(biāo)簽,用這些事實(shí)標(biāo)簽構(gòu)建模型計(jì)算用戶的行為偏好。
(圖片來(lái)源于回形針PaperClip)
還是用上面提到的用戶對(duì)視頻的喜愛度的情況為例。
當(dāng)用戶刷抖音看到一個(gè)標(biāo)簽為美女類的視頻點(diǎn)了一個(gè)贊,并不意味著該用戶就喜歡看美女可能是不小心點(diǎn)的,這就需要更多的行為來(lái)判斷該用戶對(duì)美女類視頻的喜愛程度;根據(jù)前面提到的初級(jí)公式:
對(duì)美女的喜愛權(quán)重=(播放時(shí)長(zhǎng)量+點(diǎn)贊量+評(píng)論量+分享量 – 不感興趣量+…)X 權(quán)重因子 X 衰減因子
除了點(diǎn)贊、評(píng)論、分享,關(guān)注了某作者這些行為外還有一個(gè)時(shí)間的限定,短期行為無(wú)法代表長(zhǎng)期興趣,單次行為的權(quán)重會(huì)隨著時(shí)間流逝不斷衰減,用戶每次打開美女類內(nèi)容都會(huì)生成一個(gè)興趣權(quán)重,把一段時(shí)間內(nèi)你所有的美女類興趣權(quán)重進(jìn)行累加,再用S型函數(shù)標(biāo)準(zhǔn)化就能得到一個(gè)0-10區(qū)間的興趣值,標(biāo)簽值數(shù)值越高,就代表用戶對(duì)美女就越感興趣程度。
到了這里平臺(tái)已可以計(jì)算出用戶對(duì)某一類視頻的喜愛程度和厭惡程度,同時(shí)也對(duì)視頻做了分類處理,可直接根據(jù)用戶的偏好將視頻推薦給用戶。
平臺(tái)除了可以計(jì)算出用戶在內(nèi)容興趣上面的權(quán)重外還可以在消費(fèi)能力、社交偏好等方向進(jìn)行建模計(jì)算,進(jìn)而得出一個(gè)交為完整的用戶畫像。
另外通過(guò)行為直接推薦視頻的效果往往不如通過(guò)同類視頻推薦,找到和你一樣的人,把他們的瀏覽記錄推薦給你,往往比直接猜你喜歡什么效果更好!
基于相似用戶協(xié)同推薦(人以群分)
如何找到和你一樣的人
根據(jù)以上思路,我們?cè)谟脩舻拿琅矏燮脵?quán)重、社交偏好權(quán)重、消費(fèi)能力權(quán)重等多個(gè)維度建立模型,計(jì)算用戶的偏好,之后將這些偏好反映的權(quán)重值轉(zhuǎn)化為特征向量!
如,我們把用戶對(duì)美女的喜愛權(quán)重為8,社交偏好權(quán)重為5,消費(fèi)能力權(quán)重為2,將向量理解成多維空間上的一個(gè)坐標(biāo),通過(guò)把每個(gè)用戶的向量坐標(biāo)代入余弦公式和距離公式中,就能計(jì)算出和你相似的人,進(jìn)而把用戶分類。
(這里用到的是鄰近技術(shù):利用用戶的歷史喜好信息計(jì)算用戶之間的距離空間中的點(diǎn)越近越相似。)
這樣廣告主或平臺(tái)就可以依據(jù)與你相似群體的消費(fèi)記錄和喜愛偏好給你推薦商品或視頻,這也恰巧就是你喜歡的類型。
需要說(shuō)明的是,微信淘寶們采集的行為數(shù)據(jù)不僅僅對(duì)應(yīng)你的賬號(hào),更與你的手機(jī)唯一識(shí)別碼綁定在一起,這意味著你就算不注冊(cè)不登陸,你的行為數(shù)據(jù)一樣會(huì)被采集。同時(shí)廣告平臺(tái)也可以根據(jù)你的手機(jī)識(shí)別碼在其他APP上為你投放廣告,這樣你在刷抖音的時(shí)候也能看到淘寶的AJ廣告了!
總的來(lái)說(shuō),你的一切上網(wǎng)行為都會(huì)在手機(jī)上留下操作的痕跡(基礎(chǔ)信息和行為數(shù)據(jù))。平臺(tái)采集到這些歷史痕跡進(jìn)行數(shù)據(jù)清洗——結(jié)構(gòu)化數(shù)據(jù)——建模分析,計(jì)算出你的行為偏好,根據(jù)你的偏好或同類人的偏好向你推薦商品和內(nèi)容。
這也就是為什么你剛在微信和朋友討論AJ款式,刷公眾號(hào)就刷到了AJ的廣告,淘寶首頁(yè)也驚喜般出現(xiàn)了AJ推薦;晚上刷抖音總是刷個(gè)不停,感覺刷到的每一個(gè)視頻都有某個(gè)點(diǎn)能戳中自己。
那么陷入回音室的怪圈又是怎么回事呢?(回音室怪圈:只推薦你有興趣的內(nèi)容,讓你接觸世界的邊界越來(lái)越窄,沉浸于自己營(yíng)造的狹小的世界)
回音室怪圈的陷阱是我們自己挖的
由個(gè)以上個(gè)性化推薦機(jī)制的流程可知,你現(xiàn)在的行為數(shù)據(jù)將決定你將來(lái)會(huì)接收到什么樣的內(nèi)容,從這個(gè)角度看個(gè)性化推薦的結(jié)果完全取決于你自己本身的傾向。
如果你刷抖音時(shí)能包容那些和你意見不同的人,能耐心看完或評(píng)論互動(dòng),那么根據(jù)個(gè)性推薦的機(jī)制,你的內(nèi)容信息流中既有自己喜歡的內(nèi)容也會(huì)有自我認(rèn)知之外的內(nèi)容,不用擔(dān)心個(gè)性化推薦會(huì)把你留在回音室里面。
相反,如果你只接受那些你認(rèn)同的意見或人,不能包容異己,將與自己觀點(diǎn)不對(duì)等的內(nèi)容拉黑處理,長(zhǎng)此以往你的信息流里就會(huì)只剩下你喜歡的內(nèi)容,沉浸在自己打造的回音室里。
個(gè)性推薦只是依據(jù)你的習(xí)慣做出的推薦結(jié)果,讓你掉進(jìn)回音室怪圈里的還是你自己。
參考書籍:《個(gè)性推薦》
用例及圖片來(lái)源于:回形針PaperClip
本文由 @瓶蓋?原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來(lái)自Unsplash,基于CC0協(xié)議
iPhone用戶還可以在設(shè)置-隱私-廣告中關(guān)閉IDFA碼來(lái)限制這些APP對(duì)你的數(shù)據(jù)采集
而且根據(jù)個(gè)人信息安全規(guī)范,商業(yè)平臺(tái)的所有廣告標(biāo)簽都應(yīng)該避免精確定位到個(gè)人以保護(hù)用戶的隱私安全
寫的很不錯(cuò),漲知識(shí)了
寫的很棒,真的很棒,希望能多寫幾篇,或者私下交流一下
謝謝??
你好看完分析之后有幾個(gè)問(wèn)題想請(qǐng)教一下
1微信聊天內(nèi)容會(huì)存儲(chǔ)在本機(jī),為保護(hù)用戶隱私騰訊服務(wù)器不會(huì)存儲(chǔ),那么騰訊廣告平臺(tái)是如何獲取并分析“用戶想買AJ”呢?
2微信聊天內(nèi)容有AJ,淘寶屬于阿里系,阿里廣告平臺(tái)如何獲取“用戶想買AJ”,然后首頁(yè)推送AJ商品呢?
這道題首先要用排除法,首先排除聊天內(nèi)容是用語(yǔ)言聊天
共享賬戶信息方向考慮試試
你好,感謝你的閱讀和討論
1、其實(shí)你聊AJ只能代表你有想了解AJ的沖動(dòng),采集這個(gè)沖動(dòng)并不是通過(guò)你的聊天記錄,而是你帶著這種沖動(dòng)在其他APP上留下的行為痕跡,比如在UC瀏覽器上搜索AJ、在微博上流量AJ的照片,在抖音上看一個(gè)AJ視頻點(diǎn)了贊等,這些行為都會(huì)被捕捉到;
2、阿里投資了UC,也有30%的新浪微博股權(quán),騰訊也投資了各種APP,他們?cè)跀?shù)據(jù)上應(yīng)該都有合作,上面的那位網(wǎng)友【小權(quán)】說(shuō)的一個(gè)方向很對(duì),共享賬戶信息,還有一些專門做采集數(shù)據(jù)的公司會(huì)和廣告平臺(tái)合作,現(xiàn)在是 得數(shù)據(jù)者得天下;
推薦系統(tǒng)很大,我也在學(xué)習(xí)了解,以上也是基于現(xiàn)有知識(shí)的想法,歡迎討論[握手]
有可能都是從輸入法獲取相關(guān)數(shù)據(jù)?