懂你的推薦算法,推薦邏輯是怎樣的?

作為一個(gè)喜歡思考人生的美男子,我時(shí)常感慨,現(xiàn)在這個(gè)年代,人們上網(wǎng)獲取信息的成本真的好低。智能手機(jī),人手一臺(tái),打開(kāi)3G就能上網(wǎng),百度一搜,什么都有。當(dāng)然百度上搜出來(lái)的大多數(shù)可能并不是你想要的,但這并不妨礙上面的論點(diǎn)成立。也正是因?yàn)槌杀咎?,人們反而不愿意主?dòng)取獲取信息,于是各種各樣的推薦系統(tǒng)有了大展身手的機(jī)會(huì)。
推薦在生活中是一個(gè)再平常不過(guò)的事情,你失業(yè)了,有人會(huì)給你推薦工作,你失戀了,有人會(huì)給你推薦姑娘。但是在我們這個(gè)機(jī)器遠(yuǎn)沒(méi)有人類聰明的時(shí)代,這些事情要是交給機(jī)器去做,你就得設(shè)計(jì)出一套機(jī)器能理解的算法出來(lái),這就是所謂的推薦算法。大家看到算法兩個(gè)字不要慌,以為我又要搬一個(gè)大東西出來(lái)嚇唬人。你可以把算法看做現(xiàn)實(shí)生活中的辦事流程,它規(guī)定了你第一步干什么,第二步干什么,只要你按它說(shuō)的做,就可以把事情辦好。舉個(gè)例子,你現(xiàn)在要做一個(gè)電影推薦APP,我們來(lái)看下整個(gè)過(guò)程是怎樣的。
在推薦算法中,我們第一步要有一大堆要推薦的東西。也就是說(shuō),你的電影首先要足夠多,才能滿足不同用戶的需求。算法再精準(zhǔn),最后發(fā)現(xiàn)推導(dǎo)出來(lái)的結(jié)果,在你的數(shù)據(jù)庫(kù)中并沒(méi)有,就悲劇了。第二步是要有用戶的行為數(shù)據(jù)。這個(gè)也是越多越詳細(xì)越好。這時(shí)候你要把看了哪部電影,看完沒(méi)有,評(píng)價(jià)怎么樣悄悄的記下來(lái),上傳到后臺(tái)服務(wù)器。經(jīng)過(guò)長(zhǎng)期的積累,這些數(shù)據(jù)將為你以后的精準(zhǔn)推薦奠定基礎(chǔ)。
有了上面的數(shù)據(jù)基礎(chǔ),我們就可以進(jìn)入正題了。推薦算法有不少,我們今天介紹一種最基本的叫做協(xié)同過(guò)濾算法。它的核心思想是物以類聚,人以群分。具體可以分為基于用戶的協(xié)同過(guò)濾算法和基于物品的協(xié)同過(guò)濾算法。我一直覺(jué)得專業(yè)領(lǐng)域起這種高大上的名字,是用來(lái)過(guò)濾智商的,因?yàn)楹芏嗳丝吹竭@里就不打算往下看了,哈哈。
先看第一種基于用戶的協(xié)同過(guò)濾。可以簡(jiǎn)單理解為我雖然不認(rèn)識(shí)你,但是我通過(guò)查看你的朋友圈都是些什么人,根據(jù)人以群分的道理,他們喜歡的很可能就是你喜歡的。
假設(shè)從歷史數(shù)據(jù)上來(lái)看,用戶A喜歡《捉妖記》、《大圣歸來(lái)》,用戶B喜歡《梔子花開(kāi)》、《小時(shí)代》,用戶C喜歡《捉妖記》。那我們就可以簡(jiǎn)單認(rèn)為AC二人口味相似,可以歸到一個(gè)朋友圈里,C極有可能也喜歡A所喜歡的《大圣歸來(lái)》。
這是最簡(jiǎn)單的情況,實(shí)際上僅僅用喜不喜歡來(lái)評(píng)價(jià)感興趣程度是遠(yuǎn)遠(yuǎn)不夠的,用戶不可能看完還填個(gè)調(diào)查表選擇yes or no,但是會(huì)通過(guò)一些其他行為比如影評(píng)、是否收藏來(lái)反應(yīng)他們的喜歡程度。機(jī)器只能理解量化的東西,所以在算法中,這些行為會(huì)轉(zhuǎn)化成相應(yīng)的分?jǐn)?shù)。比如完整看完的,給3分;看完還給了正面評(píng)價(jià)的,給5分;看到一半就怒刪的,給負(fù)10分。這樣每個(gè)用戶都會(huì)有一個(gè)電影評(píng)分表,在計(jì)算兩個(gè)用戶相似度的時(shí)候,把這些數(shù)據(jù)代入下面這種專門(mén)計(jì)算相似度的公式,就能得到二人口味的相似程度。
現(xiàn)在我們要給用戶D推薦電影,分別計(jì)算AD、BD、CD的相似度,找到跟D最相似的用戶,然后把他喜歡的,都推薦給D,就行了。(下面的公式叫做余弦相似度公式,通過(guò)計(jì)算n維空間中兩個(gè)向量的夾角余弦,來(lái)表示相似度,大家感受一下就好,感興趣的可以去問(wèn)google。)
第二種是基于物品的協(xié)同過(guò)濾?;舅枷胧羌僭O(shè)甲乙是相似的物品,那么喜歡甲的人,很可能也喜歡乙。還是上面的例子,現(xiàn)在假設(shè)用戶E喜歡《梔子花開(kāi)》和《小時(shí)代》,那我們可以推導(dǎo)出,喜歡《梔子花開(kāi)》的用戶(B和E)都喜歡《小時(shí)代》,那基本可以確定兩部電影是相似的,下回來(lái)個(gè)用戶F,他喜歡《梔子花開(kāi)》,那我順便就把《小時(shí)代》推薦給他,他可能比較容易接受。
大家可能要問(wèn),我的APP第一天上線,沒(méi)有這些所謂的用戶行為數(shù)據(jù)怎么推薦啊。這就是推薦算法面臨的冷啟動(dòng)問(wèn)題。這時(shí)候可以用基于內(nèi)容的算法了。你可以事先把所有電影歸個(gè)類,戰(zhàn)爭(zhēng)片歸到一起,喜劇片歸到一起,動(dòng)畫(huà)片歸到一起。用戶H看了一部喜劇片,你就把所有喜劇片推薦給他。顯而易見(jiàn),這種算法簡(jiǎn)單粗暴,當(dāng)然命中率也最低。
真正的推薦系統(tǒng)會(huì)綜合運(yùn)用各種算法,加之機(jī)器學(xué)習(xí)和人工調(diào)優(yōu)的不斷改進(jìn),所以是非常復(fù)雜的。
#專欄作家#
給產(chǎn)品經(jīng)理講技術(shù),微信公眾號(hào)(pm_teacher),人人都是產(chǎn)品經(jīng)理專欄作家。資深程序猿,專注客戶端開(kāi)發(fā)若干年,對(duì)前端、后臺(tái)技術(shù)略懂,熱衷于對(duì)新的科技領(lǐng)域的探索。
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,不得轉(zhuǎn)載。
一些帖子熱門(mén)的刷新邏輯是怎么樣的呢 推薦邏輯又是咋樣的呢
666
6666很有趣