如何執(zhí)行個(gè)性化推薦:個(gè)性化推薦的需求、算法和數(shù)據(jù)
毫無疑問,投其所好,往往能夠幫助產(chǎn)品捕獲更多的用戶并且更為牢固的鎖住用戶,但關(guān)鍵在于如何執(zhí)行個(gè)性化推薦,從而更好的滿足用戶需求。
個(gè)性化推薦的原理應(yīng)該是在特定的,去構(gòu)造一些合理的算法或規(guī)則將正確的數(shù)據(jù)推薦給正確的用戶,這句話放在現(xiàn)在很多產(chǎn)品都是一樣的,但可能在不同的產(chǎn)品上也有一點(diǎn)區(qū)別,比如說在百度視頻里面所指的數(shù)據(jù)就是視頻和用戶。
視頻:我們在幾千萬的視頻屬性庫里面每一部視頻都有一些它自己的靜態(tài)屬性。比如明星、地區(qū)、發(fā)行年代、用戶為他打上一些心情、場景等標(biāo)簽、視頻類目標(biāo)簽。同時(shí)每部視頻也有它的一些動(dòng)態(tài)數(shù)據(jù),如播放量,收藏率等。
用戶:百度視頻除了有自己的用戶畫像,比如說觀看偏好,觀看場景等,還擁有一些其他體制下的用戶畫像,比如用戶的年齡、性別等等,這些都會(huì)是一些比較好的推薦資源。
需求/場景
個(gè)性化推薦聽得最多的就是它的一些算法,百度視頻用的也是一些基于畫像的推薦,或者協(xié)調(diào)過濾,其次百度視頻的推薦還會(huì)涉及到另外一些方面比如需求場景,如他是一個(gè)懶惰型還是發(fā)現(xiàn)型用戶,他在用個(gè)性化推薦的時(shí)候是在什么樣的時(shí)間等。這些我都?xì)w納為需求場景。
1.懶惰/被動(dòng)瀏覽
他可能是漫無目的,可能會(huì)有一些自己感興趣的視頻作品,但他又懶得去找,比如說進(jìn)入視頻頁,他就是想要一鍵播放,其實(shí)也沒有更好的解決辦法,之前就是要進(jìn)入一個(gè)列表滑動(dòng)一下,然后又沒有預(yù)期。那這種需求我就要提煉出來,首先推薦一些他感興趣的,另外說他不需要太費(fèi)力地瀏覽,能夠做到一鍵播放,這個(gè)地方也就是他個(gè)性化需求的另一方面,也就是去滿足他被動(dòng)聽那個(gè)心態(tài)
這里做了一些嘗試,比如說我們做的“猜你喜歡”,“個(gè)性視頻”等那些,都是解決個(gè)性化推薦和一鍵播放,根據(jù)用戶的行為進(jìn)行調(diào)整。
2.主動(dòng)瀏覽
對于這種用戶就是他有自己的一個(gè)找到某些視頻的需求,但是他的時(shí)間比較短,有時(shí)候需要通過一些分類他肯定需要進(jìn)入很多層級(jí),找一次很麻煩,所以需要一種能夠節(jié)省時(shí)間得方法。
提煉一下需求,就是說這種用戶是屬于那種瀏覽型用戶,他有自己感興趣的,也希望能夠主動(dòng)去發(fā)現(xiàn),但是就是在篩選的方式上比較麻煩,要通過篩選幾次之后才能找到他自己想要的內(nèi)容。
那我可以在他瀏覽的場景,比如說在視頻搜索欄,在查找的視頻下面,主動(dòng)去做一些個(gè)性化,比如說新增一個(gè)全部,那全部里面可能是根據(jù)你的看過習(xí)慣做的推薦,省去你查找的麻煩。另外一塊,或者是我們把他經(jīng)常做一些篩選的行為記錄下來,也讓他后面重新做篩選的時(shí)候省去一些麻煩。
3.追“新作品”
對于這種場景,這個(gè)用戶他是有一種新的需求,比如說他喜歡的明星出了新短視頻及相關(guān)內(nèi)容,他希望第一時(shí)間能夠知道,這種需求在我提到的兩種場景里面都不能很好地滿足。
那我可以通過他的看視頻行為知道他關(guān)注什么明星的那些作品,隨后單擊明星或者作品更新的時(shí)候我們可以馬上通過push的方法來告訴用戶,這種是一個(gè)搞清用戶最快的一個(gè)辦法,滿足他個(gè)性化的需求。
4.讓推薦融于無形之中
這塊可能是比較容易忽略的也是非常重要的一個(gè)推薦場景,比如說在搜索框內(nèi)出現(xiàn)了這部視頻作品可能是我關(guān)注的一位,那其實(shí)他更多時(shí)候進(jìn)一個(gè)視頻軟件第一件事要么就是從本地緩存那里看視頻,或者直接就進(jìn)入搜索框去搜索他感興趣的內(nèi)容。那我在你一進(jìn)來的時(shí)候能夠在搜索框上面顯示你感興趣的內(nèi)容或者關(guān)鍵詞,對他來說就是一個(gè)非常節(jié)省時(shí)間而且更自然的方式
如果一個(gè)用戶在本地的數(shù)據(jù)較少,緩存的視頻作品非常少,他是一個(gè)新用戶,不知道怎樣去查找視頻內(nèi)容,那可能對我來說通過這樣的一種方法,就是根據(jù)他已經(jīng)下載的一些的視頻來推薦給他與這個(gè)視頻相似的視頻。比如我是一個(gè)喜歡看科幻電影的用戶,可能我剛剛下載了一部作品,發(fā)現(xiàn)下載里面又出現(xiàn)了幾部跟這個(gè)比較像的電影,那我繼續(xù)下載它,讓用戶感覺推薦是這個(gè)非常自然的事情。
5.對于需求和場景的總結(jié)
用戶在使用這個(gè)場景的時(shí)候是什么?他是一個(gè)需要主動(dòng)瀏覽的場景還是說是一個(gè)被動(dòng)場景,這場景沒有解決的時(shí)候他的痛點(diǎn)是什么?
我希望他的解決方法是自然和簡單的。不需要用戶去做太多操作,太多操作對于用戶來說是一種負(fù)擔(dān)
對個(gè)性化推薦來說是不是有更加剛需的主場景?舉個(gè)例子,我提供了很久在線發(fā)現(xiàn)跟本地推薦,在線推薦的意思是說有發(fā)現(xiàn)欲望的用戶在視頻庫里面可以逛到一些好看的視頻,但其實(shí),在很多視頻軟件里面,用戶的大部分時(shí)間都不是停留在在線發(fā)現(xiàn)。那我應(yīng)思考一下用戶的主場景,比如說他的下載視頻是不是有更多可以做個(gè)性化推薦的可能。
算法/規(guī)則
可能認(rèn)為個(gè)性化推薦需要接觸的算法東西很多,比如幾個(gè)推薦系統(tǒng)、幾個(gè)表情推薦、畫像推薦甚至是更深?yuàn)W的回歸等,實(shí)際上百度視頻嘗試過不少算法,但歸納到底一些比較復(fù)雜的算法可能會(huì)用到局部調(diào)整。
常用的推薦算法
- 基于用戶畫像的推薦。比如說我是一個(gè)北京市的 80 后男人,我喜歡科幻、歐美視頻,那能不能給我推薦一些類似視頻呢?
- 協(xié)同推薦。比如說很多人覺得這兩部視頻好看,你收藏/分享了其中一部,那另外一部不如也試試看,這是協(xié)同推薦最基礎(chǔ)的一個(gè)方法。
- 基于標(biāo)簽推薦。比如這部視頻和另外一部視頻在年代、類目等這些維度都非常相似,剛好也喜歡其中的一部,那我就認(rèn)為你可以也喜歡另外一種
1.什么是畫像推薦
用戶畫像在百度里面有兩個(gè)定義,第一個(gè)是基于用戶的社會(huì)屬性定出來的,比如說我?guī)讱q、我的職業(yè)、我的星座等這些屬性。社會(huì)屬性在百度視頻有幾個(gè)特征是非常明顯的,比如說不同年齡段的人看到視頻是不太一樣的,或者說不同職業(yè)的人看的視頻不一樣。
而百度視頻的用戶畫像是指,通過用戶在百度視頻里面看到、收藏的視頻歸納出來的用戶可能喜歡某些視頻,他可能喜歡某些類別,某位明星這些,通過數(shù)據(jù)歸納出對他的一個(gè)描述
2.基于用戶畫像怎樣去推薦
主要表現(xiàn)在百度視頻里不同年齡和性別的用戶喜歡哪些視頻??梢缘贸觯煌詣e、年齡的用戶口味相差蠻大的。假設(shè)一個(gè)用戶進(jìn)入百度視頻但沒有任何數(shù)據(jù)的時(shí)候,我們可以嘗試這種方法來推薦給用戶,比如說你是一個(gè)十幾歲的男生,我比較傾向于給你推薦偏娛樂、二次元這種視頻。
3.用戶畫像是怎么做的
百度視頻的用戶畫像我是收集了用戶在產(chǎn)品里面的一些操作行為,比如說他觀看哪些視頻等,把數(shù)據(jù)收集起來在后臺(tái)服務(wù)器上去計(jì)算。另外也有自己視頻庫的東西,比如這部視頻作品的流派,風(fēng)格、心情。將這兩個(gè)數(shù)據(jù)結(jié)合,他有幾個(gè)維度,比如明星、流派、風(fēng)格,都一個(gè)個(gè)分權(quán)重。
有了這些數(shù)據(jù)之后我就可以做很多事情,用戶產(chǎn)生這些行為之后我大概可以知道他可能喜歡鹿晗、吳某凡等明星,那我可以推薦給他這些的一些冷門但好聽歌曲,這些對用戶來說都是一個(gè)非常好的體驗(yàn)
4.協(xié)同推薦是怎么做的
比如百度視頻有100個(gè)人收藏了鹿晗的這部電影,而吳某凡的也有100個(gè)人收藏,其中共同收藏這兩部作品共有50 個(gè)人,那通過一個(gè)簡單的并集運(yùn)算,然后再用共同人數(shù) 50 除以并集100 之后可以得出0.5,也就是喜歡鹿晗的這部電影有 50%的概率就喜歡吳某凡的作品。
通過這個(gè)方法可以通過多少人看過這部視頻,再求出共同看視頻人數(shù),最后通過一個(gè)公式來算出相似度:
用戶的行為=內(nèi)容(明星、類目、年代)+顯性操作(常看、關(guān)注、下載、收藏)+隱形操作(完整觀看、跳過)
獲得視頻相似度之后該怎樣去推薦給用戶感興趣的作品內(nèi)容?這里涉及到怎樣去定義用戶感興趣的作品內(nèi)容,在百度視頻里面用戶行為定義是,比如他的一個(gè)顯性和隱形操作,比如說他對一個(gè)專題收藏/分享和跳過了哪些視頻內(nèi)容。
當(dāng)有了這些操作行為之后就可以來計(jì)算用戶喜歡哪些作品,如圖上的例子(鋼鐵俠這部作品分值應(yīng)該是:5*0.4+4*0.7=4.7),通過這樣一個(gè)計(jì)算得出鋼鐵俠這部電影應(yīng)該是最先推給你的,其次是蜘蛛俠、超人。
這是 百度視頻一個(gè)原理,當(dāng)然上面可能疊加了很多修正,比如說他很久之前看的電影就會(huì)進(jìn)行一個(gè)降權(quán),因?yàn)樵皆缡詹氐闹匾栽降?。而一些熱門作品很多人都收藏的會(huì)降權(quán),但你收藏了很多歌曲會(huì)加權(quán)。通過這個(gè)算法對用戶進(jìn)行推薦。
5.算法總結(jié)
基于用戶畫像推薦解釋性可能是最強(qiáng)的,但是他依賴于用戶不斷地去看視頻積累數(shù)據(jù)。關(guān)于協(xié)同推薦的有點(diǎn)就是只要你看過這部作品,他就可以通過后臺(tái)計(jì)算去給你推薦,對于一些冷門作品,這樣是非常有用的;同時(shí)他的缺點(diǎn)也非常明顯,就是對于熱門作品它的可解釋性不強(qiáng)?;跇?biāo)簽優(yōu)點(diǎn)在于他無論冷熱門作品可取性都非常強(qiáng),只要你有打上這個(gè)標(biāo)簽就能推薦;缺點(diǎn)就在于他需要依靠人工去打標(biāo)簽。
數(shù)據(jù)
基礎(chǔ)數(shù)據(jù)和挑戰(zhàn)
對于視頻來說最重要的是標(biāo)簽和用戶數(shù)據(jù),對于標(biāo)簽來說可以看到他有很多維度,比如明星、作品等很多,而標(biāo)簽這塊人力成本非常高,而且不斷試錯(cuò)的過程中發(fā)現(xiàn)客觀標(biāo)簽的覆蓋率不是特別全面,主觀標(biāo)簽如果完全依賴于信息,它的出錯(cuò)率也是非常高的。對于用戶畫像來說,它的生成慢和感知差是一個(gè)大痛點(diǎn)。
讓畫像創(chuàng)建簡單,應(yīng)用場景更普遍
用戶畫像我上面說道他的一個(gè)生成難、感知度普遍較弱。在嘗試一個(gè)辦法,比如說用戶新裝了 百度視頻,那他可能會(huì)有一個(gè)掃描手機(jī)本地視頻的習(xí)慣,那么掃描完之后我們就會(huì)去分析一下他本地的那些視頻是什么樣的,這樣就能夠確定一個(gè)用戶的初始畫像。這種方法在很多 app 上都有用到。同時(shí)對于畫像感知差的問題,我會(huì)做一個(gè)數(shù)據(jù)總結(jié),把用戶數(shù)據(jù)呈現(xiàn)在用戶面前,告訴他這不是一個(gè)冷冰冰的數(shù)據(jù),這樣就讓用戶更有動(dòng)力去接受我們的推薦。
個(gè)性化推薦難點(diǎn)
1.產(chǎn)品經(jīng)理不懂技術(shù)
2.優(yōu)化效果不明顯
3.口碑難以量化和橫向?qū)Ρ?/p>
4.算法重要,但場景和基礎(chǔ)不能忽略
產(chǎn)品經(jīng)理更加重視的是它的關(guān)注、場景、推薦系統(tǒng)所用數(shù)據(jù),理解算法其中的優(yōu)劣勢。
作者:Indulgence
來源:http://www.36dsj.com/archives/70880
本文來源于人人都是產(chǎn)品經(jīng)理合作媒體@36大數(shù)據(jù),作者@Indulgence
第1:協(xié)同過濾分兩種,一種是基于用戶的協(xié)同過濾(余弦相似度公式);一種是基于物品的協(xié)同過濾(交并集分析法)
第二,名字搞錯(cuò)先不說,交并集分析法用兩項(xiàng)交集除兩項(xiàng)并集,按照你文中舉的例子,并集怎么會(huì)是100?100個(gè)人看了a,100個(gè)人看了b,ab同時(shí)觀看的人數(shù)是50,并集自己應(yīng)該是是150,比例是0.33,是數(shù)學(xué)不好嗎?這是小學(xué)三年級(jí)學(xué)的吧
第三,計(jì)算分?jǐn)?shù)時(shí),0.8 0.4這類的乘數(shù)哪里來的都不介紹嗎?
整體應(yīng)該是抄來的文章,為了避免判定抄襲,縮減了字?jǐn)?shù)。這么高的瀏覽量,我還以為是有新玩法
洗稿洗成這樣…
缺失覺得干貨挺少的
感覺說得不是很具體,只能了解一個(gè)大概的思路
學(xué)習(xí)了