如何避免內(nèi)容重復(fù)推薦?聊聊去重服務(wù)

4 評論 11482 瀏覽 55 收藏 8 分鐘

“請不要再給我推一樣的內(nèi)容了,拜托?!痹诿鎸ζ脚_一直跟你推薦同樣的內(nèi)容時,你是否是一樣的想法。這樣情況是否有改善的方法?本文作者從這一問題出發(fā),對去重服務(wù)進(jìn)行了分析探討。

如果一個APP一直給你推薦同樣的東西,就像一個人在你面前絮絮叨叨同一件事情,你的心情想必非常糟糕。

去重服務(wù)在資訊APP中是一項基礎(chǔ)服務(wù),PUSH、圖文、視頻、直播等內(nèi)容業(yè)務(wù),甚至是作者編輯后臺都會需要使用。去重服務(wù)細(xì)拆開其實是很復(fù)雜的,也容易出現(xiàn)“眾口難調(diào)”的問題,因為重復(fù)的類型可能有:不同信息載體的重復(fù)(文章和文章、視頻和文章等)、不同場景的重復(fù)(feed流、正文頁等)、信息有無增量的重復(fù)(高度重復(fù)和一般相似等)……

  1. 無信息增量:包含的內(nèi)容是同樣的,用戶從該內(nèi)容中無法獲得差異化的信息和體驗。
  2. 有信息增量:包含的內(nèi)容有部分相同或相似,即使之前已有相關(guān)的閱讀,但用戶從該內(nèi)容中仍可以獲得差異化的信息和體驗。

對于第一種情況,是絕對去重,即將高度一致的內(nèi)容過濾掉,“多選一”。關(guān)鍵點是“如何挑出原創(chuàng)或質(zhì)量更高的內(nèi)容”,文章質(zhì)量、源質(zhì)量、發(fā)布時間、原創(chuàng)度可以幫上忙。所謂“道高一丈魔高一尺”,上網(wǎng)搜關(guān)鍵詞“躲避消重教學(xué)”,你會發(fā)現(xiàn)你要做的工作還有很多。

(圖片來自網(wǎng)絡(luò))

另外直播形式下的專題或機(jī)器批量生產(chǎn)的標(biāo)題,不同內(nèi)容的標(biāo)題可能一模一樣,為了避免誤傷太多內(nèi)容,需要細(xì)化去研究內(nèi)容的特性。

對于去重服務(wù),定義標(biāo)準(zhǔn)很重要,拿圖片重復(fù)來說:

(1)背景、人物動作完全相同的圖片

(2)同一現(xiàn)場/背景,同一機(jī)位截圖,人物相同(人物動作可能不同)


(3)某圖片的局部截圖(至少半圖及半圖以上)


以上三組圖片,在我們的認(rèn)知里一般屬于重復(fù),基于以上的定義,我們再看幾組圖片:

(娛樂類)同一綜藝節(jié)目,同一機(jī)位截圖,但人物不同:


(游戲類)同一款游戲,不同背景截圖:


(游戲類)同一游戲背景截圖,游戲人物不同:


(母嬰類)新生寶寶圖:


如果按先前三組的定義,以上圖片屬于重復(fù),但從我們的日常體驗?zāi)苤?,它們是不一樣的?nèi)容(只是同個系列),所以,區(qū)分分類(category)做細(xì)化的定義很有必要,只有這樣機(jī)器才能按照人的期望學(xué)習(xí)并輸出可用的結(jié)果。

除了內(nèi)容,圖片重復(fù)的形式也要定義,如在feed流里:


對于有信息增量的情況,處理方式要精細(xì)得多,面對的是“怎么推”的問題。可以考慮“分層定義->分場景限制”的推薦策略。定義文章相似,能用來輔助判斷的元素有:

  1. 標(biāo)題
  2. 摘要
  3. 圖片
  4. 正文
  5. 類別

視頻還有物理時長、音頻、字幕等。

我們先來看看標(biāo)題相似(內(nèi)容相似或體感相似)的case:標(biāo)題主體或關(guān)鍵詞不同或模糊不清,強(qiáng)調(diào)的主旨相同,用詞或長或短;同一事件不同角度:


其中,容易被機(jī)器識別為相似從而產(chǎn)生badcase(會降低內(nèi)容的分發(fā)效率),產(chǎn)品汪需要留意一下:

  1. 不同主體同一方面
  2. 同一主體的不同方面
  3. 強(qiáng)本地屬性的類似事件
  4. 同一領(lǐng)域中關(guān)聯(lián)度較高的事件
  5. 同一領(lǐng)域(如星座、育兒)實體或關(guān)鍵詞相似,但事件面不同
  6. 同屬一賽事(如世界杯),不同賽事
  7. 體育球星、會議與政策之間等不同面

當(dāng)NLP能較準(zhǔn)確識別相似內(nèi)容時,分場景限制的策略可以從哪些維度入手?

  1. 時間間隔去重:如操作時間在12小時之內(nèi),做嚴(yán)格的相似過濾邏輯
  2. 刷數(shù)去重:如鄰近50刷,做嚴(yán)格的相似過濾邏輯
  3. 事件去重:如同一事件內(nèi)容不得黏連
  4. POI(興趣點)/Keyword(關(guān)鍵詞)去重:如同一刷同一個POI不得超過3個,重排打散
  5. 源去重:如同一刷同一個源的文章不得超過1篇

還可以對不同用戶(如投訴過重復(fù)老舊的用戶、新老用戶)做不同程度的控制;也可以根據(jù)相似度將相似分層,做不同程度的控制;也可根據(jù)事件的熱度,做不同程度的控制;也可以根據(jù)用戶的興趣的濃度做不同程度的控制。

去重力度需要產(chǎn)品汪把控,而且去重工作中還有很多內(nèi)容需要確認(rèn):比較的對象、信息載體、時間長短、數(shù)據(jù)來源等等。沒有最佳方案,本文旨在引發(fā)思考且補(bǔ)全思路,只有不斷測試,才能找到適合自己產(chǎn)品的組合方案。

 

本文由 @張小喵Miu 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于CC0協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 很受用 感謝

    來自北京 回復(fù)
  2. 沒信息量啊

    回復(fù)
    1. 還好呀,感覺挺有用的

      來自北京 回復(fù)
    2. 請問是推薦業(yè)務(wù)的小伙伴嗎?

      來自浙江 回復(fù)
专题
15498人已学习10篇文章
再好的产品,没有优质的推广渠道加持和App投放增长的方法,也很难实现有效传播和增长。本专题的文章分享了App投放推广指南。
专题
45429人已学习10篇文章
什么是社群运营?社群运营怎么做?社群运营哪些坑?
专题
11854人已学习13篇文章
激活是指用户通过完成关键行为,真正成为产品的用户,而提升新用户激活则是留存用户的第一步。本专题的文章分享了如何做好新用户激活。
专题
35801人已学习14篇文章
原型对于产品经理来说是一门必修课。
专题
12222人已学习12篇文章
精细化运营、抓住老用户、提升用户复购,则将是品牌需要着重留意的地方。本专题的文章分享了提升复购率的N种方法。
专题
13483人已学习13篇文章
情绪板由能代表用户情绪的文本、元素、图片拼贴而成,能够很好地帮助我们定义设计的方向。本专题的文章分享了如何应用情绪板。