產(chǎn)品設(shè)計(jì)中的推薦引擎介紹

0 評(píng)論 13238 瀏覽 18 收藏 13 分鐘

什么是推薦引擎?

推薦引擎利用特殊的信息過(guò)濾(IF,Information-Filtering)技術(shù),將不同的內(nèi)容(例如電影、音樂(lè)、書(shū)籍、新聞、圖片、網(wǎng)頁(yè)等)推薦給可能感興趣的用戶(hù)。通常情況下,推薦引擎的實(shí)現(xiàn)是通過(guò)將用戶(hù)的個(gè)人喜好與特定的參考特征進(jìn)行比較,并試圖預(yù)測(cè)用戶(hù)對(duì)一些未評(píng)分項(xiàng)目的喜好程度。參考特征的選取可能是從項(xiàng)目本身的信息中提取的,或是基于用戶(hù)所在的社會(huì)或社團(tuán)環(huán)境。

推薦引擎的分類(lèi)

1. 個(gè)性化的推薦--根據(jù)用戶(hù)過(guò)去在網(wǎng)站的行為進(jìn)行推薦。

2. 社會(huì)化推薦--根據(jù)類(lèi)似用戶(hù)過(guò)去在網(wǎng)站的行為進(jìn)行推薦。

3. 基于產(chǎn)品的推薦--基于產(chǎn)品本身的特性進(jìn)行推薦。

4. 以及上述三種的方法的組合。

推薦引擎的開(kāi)放api

商業(yè)推薦引擎不僅僅用來(lái)把數(shù)據(jù)計(jì)算出來(lái),在后期必須充分的利用這些高質(zhì)量的推薦數(shù)據(jù),通過(guò)推薦引擎的開(kāi)放API,可以在任何需要調(diào)用推薦數(shù)據(jù)的地方使用這些高質(zhì)量的推薦數(shù)據(jù),實(shí)現(xiàn)集中計(jì)算,分散使用。企業(yè)推薦引擎的數(shù)據(jù)可以擴(kuò)展到網(wǎng)站的任何一個(gè)角落,給互聯(lián)網(wǎng)客戶(hù)貼心的用戶(hù)體驗(yàn)。

推薦引擎的通用算法

1.基于關(guān)聯(lián)規(guī)則的推薦算法(Association Rule-based Recommendation)

2.基于內(nèi)容的推薦算法 (Content-based Recommendation)

內(nèi)容過(guò)濾主要采用自然語(yǔ)言處理、人工智能、概率統(tǒng)計(jì)和機(jī)器學(xué)習(xí)等技術(shù)進(jìn)行過(guò)濾。

基于內(nèi)容過(guò)濾的系統(tǒng)其優(yōu)點(diǎn)是簡(jiǎn)單、有效。其缺點(diǎn)是特征提取的能力有限,過(guò)分細(xì)化,純基于內(nèi)容的推薦系統(tǒng)不能為客戶(hù)發(fā)現(xiàn)新的感興趣的資源,只能發(fā)現(xiàn)和客戶(hù)已有興趣相似的資源。這種方法通常被限制在容易分析內(nèi)容的商品的推薦,而對(duì)于一些較難提取出內(nèi)容的商品,如音樂(lè)CD、電影等就不能產(chǎn)生滿意的推薦效果。

3.協(xié)調(diào)過(guò)濾推薦算法 (Collaborative Filtering Recommendation)

與傳統(tǒng)文本過(guò)濾相比,協(xié)同過(guò)濾有下列優(yōu)點(diǎn):

1)能夠過(guò)濾難以進(jìn)行機(jī)器自動(dòng)基于內(nèi)容分析的信息。如藝術(shù)品、音樂(lè)。

2)能夠基于一些復(fù)雜的,難以表達(dá)的概念(信息質(zhì)量、品位)進(jìn)行過(guò)濾。

3)推薦的新穎性。 正因?yàn)槿绱?,協(xié)同過(guò)濾在商業(yè)應(yīng)用上也取得了不錯(cuò)的成績(jī)。Amazon,CDNow,MovieFinder,都采用了協(xié)同過(guò)濾的技術(shù)來(lái)提高服務(wù)質(zhì)量。

缺點(diǎn)是:

1)用戶(hù)對(duì)商品的評(píng)價(jià)非常稀疏,這樣基于用戶(hù)的評(píng)價(jià)所得到的用戶(hù)間的相似性可能不準(zhǔn)確(即稀疏性問(wèn)題)。

2)隨著用戶(hù)和商品的增多,系統(tǒng)的性能會(huì)越來(lái)越低(即可擴(kuò)展性問(wèn)題)。

3)如果從來(lái)沒(méi)有用戶(hù)對(duì)某一商品加以評(píng)價(jià),則這個(gè)商品就不可能被推薦(即最初評(píng)價(jià)問(wèn)題)。因此,現(xiàn)在的電子商務(wù)推薦系統(tǒng)都采用了幾種技術(shù)相結(jié)合的推薦技術(shù)。

推薦引擎的過(guò)濾方式

1.基于內(nèi)容的過(guò)濾

了解內(nèi)容和用戶(hù)的特質(zhì),送上合適產(chǎn)品的做法,被稱(chēng)為“基于內(nèi)容的過(guò)濾” (Content Based Filtering)

2.協(xié)同過(guò)濾”(Collaborative Filtering) 的推薦方式

圖–協(xié)同過(guò)濾二層推薦模型


以“協(xié)同過(guò)濾”推薦機(jī)制為核心,網(wǎng)站并不需要做出如同“What to Rent”的“性格-產(chǎn)品”匹配,而只需要了解“用戶(hù)都在同哪些人進(jìn)行交往”、“用戶(hù)加入了哪些組群”、“用戶(hù)都在看誰(shuí)的頁(yè)面”這樣的問(wèn)題,然后根據(jù)“物以類(lèi)聚、人以群分”的思路為用戶(hù)推薦他的伙伴都感興趣的事物。

第一代的協(xié)同過(guò)濾技術(shù),又被稱(chēng)為基于用戶(hù)(User-based)的協(xié)同過(guò)濾?;谟脩?hù)的協(xié)同過(guò)濾,基本原理是基于用戶(hù)行為選擇的相關(guān)性。

協(xié)同過(guò)濾的核心問(wèn)題是尋找與目標(biāo)用戶(hù)興趣相近的一組用戶(hù)。這種相似用戶(hù)通常被稱(chēng)為最近鄰居(Nearest Neighbor)。用戶(hù)之間的相似度是通過(guò)比較兩個(gè)用戶(hù)的行為選擇矢量得到的。于是第二代基于內(nèi)容項(xiàng)(Item-based)的協(xié)同過(guò)濾技術(shù)就產(chǎn)生了。與基于用戶(hù)的技術(shù)不同的是,這種方法比較的是內(nèi)容項(xiàng)與內(nèi)容項(xiàng)之間的相似度。 Item-based方法同樣需要進(jìn)行三個(gè)步驟獲得推薦:

1)得到內(nèi)容項(xiàng)(Item)的歷史評(píng)分?jǐn)?shù)據(jù)。

2)針對(duì)內(nèi)容項(xiàng)進(jìn)行內(nèi)容項(xiàng)之間的相似度計(jì)算,找到目標(biāo)內(nèi)容項(xiàng)的“最近鄰居”。

3)產(chǎn)生推薦。這里內(nèi)容項(xiàng)之間的相似度是通過(guò)比較兩個(gè)內(nèi)容項(xiàng)上的用戶(hù)行為選擇矢量得到的?;谟脩?hù)的推薦系統(tǒng)相比,基于內(nèi)容項(xiàng)的推薦系統(tǒng)最大的改進(jìn)是更具有擴(kuò)展性?;趦?nèi)容項(xiàng)的方法通過(guò)計(jì)算內(nèi)容項(xiàng)之間的相似性來(lái)代替用戶(hù)之間的相似性。

不論是第一代的基于用戶(hù)方法,還是第二代的基于內(nèi)容項(xiàng)方法,都不可避免的遇到數(shù)據(jù)稀疏的問(wèn)題。

基于內(nèi)容和基于協(xié)同過(guò)濾兩種方式的區(qū)別

無(wú)論從用戶(hù)還是服務(wù)提供者的角度出發(fā),這兩種推薦方式都有各自明顯的優(yōu)劣。如果采用“基于內(nèi)容的過(guò)濾”,那么在完成內(nèi)容和用戶(hù)互相匹配的過(guò)程中,就可能出現(xiàn)“越讀越窄”、“越聽(tīng)越窄”、“越看越窄”的問(wèn)題,提供的內(nèi)容完全與用戶(hù)興趣點(diǎn)相吻合,而沒(méi)有發(fā)散。

“協(xié)同過(guò)濾”在很大程度上避免了這個(gè)問(wèn)題,但是他需要用戶(hù)達(dá)到一定數(shù)量級(jí)之后才能發(fā)揮出網(wǎng)站創(chuàng)建者預(yù)想的效果,這種“網(wǎng)絡(luò)效應(yīng)”使得同一市場(chǎng)上的后來(lái)者很難找到切入的機(jī)會(huì)。而用戶(hù)一旦不能得到“好處”,可能迅速離去,而來(lái)不及提“利他”的后話。

3.基于實(shí)時(shí)行為的推薦

目前流行的實(shí)時(shí)搜索開(kāi)始了這方面的研究。

推薦引擎需要面對(duì)的問(wèn)題

1.數(shù)據(jù)匱乏

2.應(yīng)對(duì)數(shù)據(jù)變化

因?yàn)楹诵乃惴ㄊ菍?duì)歷史數(shù)據(jù)的統(tǒng)計(jì),所以偏愛(ài)老數(shù)據(jù),而新的變化難于及時(shí)體現(xiàn),所以難于跟上時(shí)尚潮流的變化(pastbehavior [of users] is not a good tool because the trends are always changing),同時(shí)原文指出:在變化很快的時(shí)尚領(lǐng)域物品推薦方式不太奏效,因?yàn)閱蝹€(gè)物品的特性太多而且隨時(shí)間變化,所以,社會(huì)化推薦也許更有效。

3.應(yīng)對(duì)用戶(hù)喜好的變化

用戶(hù)每次使用同一個(gè)系統(tǒng)(例如,Amazon)的目的不同,所以推薦算法也許會(huì)迷惑。但是,本人認(rèn)為通過(guò)長(zhǎng)時(shí)間的采集用戶(hù)的行為數(shù)據(jù),某個(gè)用戶(hù)的消費(fèi)傾向還是能夠把握的,本人使用當(dāng)當(dāng)網(wǎng)購(gòu)物時(shí)就體會(huì)到它的推薦還是比較貼合我的口味的。

4.個(gè)別物品的特性具有對(duì)立的多面性

有些物品,在同一個(gè)物品身上能夠發(fā)現(xiàn)不相容的特性,主要在文化基因和個(gè)人喜好方面,這類(lèi)物品很難推薦。

5.計(jì)算很復(fù)雜

要面對(duì)的問(wèn)題有:原始數(shù)據(jù)量巨大、需計(jì)算的參數(shù)很多,因此計(jì)算很復(fù)雜。個(gè)性化數(shù)據(jù)

6.個(gè)性化數(shù)據(jù)是關(guān)鍵,而這些數(shù)據(jù)一般都是結(jié)構(gòu)化數(shù)據(jù)。


基于Amazon研究

據(jù)稱(chēng),Amazon 有35%的頁(yè)面銷(xiāo)售源自于她的推薦引擎。

Amazon的推薦引擎,是一個(gè)需要用戶(hù)一定參與的系統(tǒng),用戶(hù)的輸入將對(duì)推薦的內(nèi)容起到指導(dǎo)作用;如果指導(dǎo)有方,則會(huì)提供更符合個(gè)人品味的推薦。

她會(huì)記錄你已在Amazon購(gòu)買(mǎi)的歷史、你最近的瀏覽歷史(根據(jù)活躍度調(diào)整,可拒絕此類(lèi)跟蹤),并需要主動(dòng)告知引擎你對(duì)某些商品的打分(此打分不同于評(píng)價(jià),只用于推薦引擎、且對(duì)他人不可見(jiàn)),和你已擁有的商品(用于排除這個(gè)推薦)。根據(jù)這些數(shù)據(jù)來(lái)做出判斷

另外,Amazon的推薦引擎并不只有這一塊內(nèi)容,在瀏覽、tag、商品頁(yè)面都有很多推薦,可以說(shuō)推薦無(wú)處不在。從她的功能點(diǎn)來(lái)看,似乎可以分為三塊內(nèi)容:以人為著眼點(diǎn)、以物為著眼點(diǎn)以購(gòu)物過(guò)程為著眼點(diǎn)。同時(shí)還采用了跨類(lèi)推薦,對(duì)不同類(lèi)的按熱度排列。

基于豆瓣的研究

大家可以看這里http://www.slideshare.net/clickstone/ss-2756065。

基于八音盒的研究

八音盒(www.8box.cn)是一個(gè)基于音樂(lè)分享及偏好而建立起來(lái)的SNS服務(wù), 利用多年積研發(fā)的推薦引擎,8box能幫你找到可能喜歡的音樂(lè),幫你分析出哪些用戶(hù)是你的音樂(lè)“同好”。八音盒通過(guò)你推薦、試聽(tīng)、打分、評(píng)論音樂(lè)的過(guò)程,學(xué)習(xí)你的口味,并依此幫助過(guò)濾出你喜歡的音樂(lè)。發(fā)現(xiàn)音樂(lè)的最好途徑是通過(guò)你的同好。八音盒能夠根據(jù)你的口味,推薦相似的用戶(hù)給你。應(yīng)該說(shuō)“個(gè)性化推薦引擎–IntelliProvider”是音樂(lè)八音盒的技術(shù)基石。

簡(jiǎn)單的來(lái)說(shuō),8box推薦音樂(lè)的依據(jù)有三種:

1.依靠音樂(lè)本身的屬性信息判斷音樂(lè)的相關(guān)性,做出推薦。

2.依靠聽(tīng)眾對(duì)這個(gè)音樂(lè)的評(píng)價(jià)和反映來(lái)推斷音樂(lè)的相關(guān)性,做出推薦。

3.依靠分析用戶(hù)的行為,發(fā)掘出用戶(hù)的音樂(lè)同好,從而做出推薦。

基于遺傳學(xué)的推薦系統(tǒng)-潘朵拉(Pandora

音樂(lè)染色體組項(xiàng)目的 推出,目的在于把音樂(lè)解析成為最基本的基因組成。它的基本想法是:我們因?yàn)橐魳?lè)的某些特性喜歡音樂(lè)--那么為什么不能根據(jù)音樂(lè)的某些相似之處設(shè)計(jì)出一套推 薦系統(tǒng)呢?這類(lèi)推薦系統(tǒng)應(yīng)該屬于基于產(chǎn)品的推薦。但具有深刻創(chuàng)新意義的是,產(chǎn)品(音樂(lè)產(chǎn)品)的相似性,通過(guò)“基因”組成來(lái)衡量。

這種“即刻滿足感”是很難抗拒的。因?yàn)閜andora 了解音樂(lè)相似性背后的因素,它不需要了解用戶(hù)的好惡,就可以把用戶(hù)黏住。確實(shí),pandora 需要把握用戶(hù)的口味或記憶--但這正是蘊(yùn)藏在音樂(lè)本身的dna中了。當(dāng)然pandora有時(shí)并不完美,會(huì)播放不對(duì)用戶(hù)口味的音樂(lè)。但這很少發(fā)生。

基于標(biāo)簽的推薦系統(tǒng)-Del.icio.us

非常簡(jiǎn)明的推薦系統(tǒng),它指基于一個(gè)基因--那就是一個(gè)標(biāo)簽。

總結(jié)到這里,要是有這方面的技術(shù)人員交流就好了!??!

來(lái)源:http://www.xisoo.net/2010/01/12/csi/

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!