內(nèi)容審核基礎(chǔ):審核方式、流程與審核維度

咩咩咩
32 評(píng)論 54437 瀏覽 357 收藏 11 分鐘
🔗 产品经理的核心价值是能够准确发现和满足用户需求,把用户需求转化为产品功能,并协调资源推动落地,创造商业价值

對(duì)于資訊類產(chǎn)品和內(nèi)容內(nèi)產(chǎn)品來(lái)說(shuō),內(nèi)容審核是必不可少的環(huán)節(jié)之一。借助人工智能的發(fā)展,可以讓機(jī)器替代一部分審核工作,但由于內(nèi)容的復(fù)雜性,人工審核必不可少,而且還有其他需要考慮的點(diǎn)。這篇文章,作者為我們講解內(nèi)容審核的方式與流程,希望能對(duì)你有所幫助。

何為內(nèi)容審核?

簡(jiǎn)單來(lái)說(shuō)就是:對(duì)用戶在社交平臺(tái)上上傳、發(fā)布或共享的內(nèi)容(文字,圖片,音頻,視頻)進(jìn)行審查。

其主要目的是對(duì)低質(zhì)庸俗的內(nèi)容進(jìn)行過(guò)濾篩選,從而生產(chǎn)高質(zhì)量的內(nèi)容、防止降低用戶體驗(yàn)、保持良好的內(nèi)容調(diào)性。

而在這個(gè)過(guò)程中,平臺(tái)會(huì)對(duì)于內(nèi)容有一個(gè)專業(yè)的標(biāo)準(zhǔn)作為參考,這個(gè)時(shí)候有一個(gè)很大的問題就是人工篩選效率低,而且成本大。

所以很多內(nèi)容平臺(tái)采用了算法進(jìn)行過(guò)濾,通過(guò)人工和算法的有效結(jié)合來(lái)提升效率。

經(jīng)過(guò)過(guò)濾后的內(nèi)容基本上能保證無(wú)害,即使質(zhì)量不高,但也不存在風(fēng)險(xiǎn)問題。這時(shí)企業(yè)就會(huì)面對(duì)選擇是先發(fā)后審還是先審后發(fā):

  • “先發(fā)后審”:即用戶先發(fā)表UGC內(nèi)容,再經(jīng)過(guò)審核;
  • “先審后發(fā)”:即用戶提交UGC內(nèi)容后,先經(jīng)過(guò)審核,審核通過(guò)后才能發(fā)表上線。

“先發(fā)后審”和“先審后發(fā)”的適用場(chǎng)景:

  • “先發(fā)后審”:適用于對(duì)發(fā)表內(nèi)容時(shí)效性要求較高的場(chǎng)景,如閱讀、聽歌等場(chǎng)景下的用戶評(píng)論,此時(shí)用戶發(fā)表評(píng)論更多出于即興,因此從用戶的角度考慮,希望自己發(fā)表的評(píng)論能夠馬上看到成功、有效。比如:網(wǎng)易云音樂評(píng)論。
  • “先審后發(fā)”:適用于在社區(qū)、論壇、新聞平臺(tái)等場(chǎng)景下發(fā)表文章、觀點(diǎn)、討論等,此時(shí)對(duì)于平臺(tái)方來(lái)說(shuō)需要對(duì)內(nèi)容負(fù)責(zé)、并構(gòu)建權(quán)威性,因此通常要審核后才能發(fā)表。比如:抖音、人人都是產(chǎn)品經(jīng)理。

一、審核方式

不管是什么內(nèi)容的審核,都應(yīng)該包含以下四個(gè)基礎(chǔ)模塊:機(jī)器審核、人工審核、用戶投訴審核、結(jié)果復(fù)審。

1. 機(jī)器審核

是按照制定好的規(guī)則或機(jī)器學(xué)習(xí)算法對(duì)內(nèi)容進(jìn)行審核.

通常,成熟的審核系統(tǒng)能將95%甚至99%以上的內(nèi)容都自動(dòng)審核并做出處理。確定有問題的會(huì)被自動(dòng)刪除,難以判斷是否有問題的會(huì)被標(biāo)注,進(jìn)入人工審核程序。

2. 人工審核

雖然用戶投訴審核和結(jié)果復(fù)審大多時(shí)候也是人工審核,但這里所說(shuō)的人工審核,特指審核機(jī)器無(wú)法判別的內(nèi)容,通常占平臺(tái)內(nèi)容數(shù)量的比例不超過(guò)5%.

但對(duì)于一些大型的內(nèi)容平臺(tái),絕對(duì)數(shù)量已經(jīng)很多了。在內(nèi)容爆炸的時(shí)代,我們看到許多平臺(tái)在全國(guó)都有多個(gè)審核中心,每個(gè)審核中心的員工數(shù)量都成千甚至上萬(wàn)。

3. 用戶投訴審核

是前兩者的彌補(bǔ),有很多違規(guī)內(nèi)容以前沒有出現(xiàn)過(guò);所以不在規(guī)則可以過(guò)濾的范圍內(nèi),或者非常隱蔽,規(guī)則難以嚴(yán)格過(guò)濾。

用戶的投訴是發(fā)現(xiàn)新問題的重要渠道。通過(guò)知乎的危機(jī)事件,我們更應(yīng)該重視對(duì)投訴的審核,并及時(shí)據(jù)此對(duì)機(jī)器審核做出補(bǔ)充。

4. 結(jié)果復(fù)審

通常采取抽查方式,比如通過(guò)復(fù)審機(jī)器刪除的內(nèi)容,看規(guī)則或算法是否過(guò)于嚴(yán)格;比如通過(guò)查看人工刪除和通過(guò)的內(nèi)容,看員工的工作是否按要求執(zhí)行;比如通過(guò)內(nèi)容的整體巡查,看是否存在新的問題未被注意到。

二、審核流程

具體流程,以下圖為例:

  1. 先過(guò)機(jī)器審核,機(jī)器審核 通過(guò) 或 不通過(guò);
  2. 對(duì)機(jī)器審核不通過(guò)的,再進(jìn)行人工復(fù)審;
  3. 對(duì)機(jī)器審核通過(guò)的,再進(jìn)行人工抽樣審核。

三、審核的四個(gè)維度

這里一般都是對(duì)四個(gè)維度進(jìn)行審核,關(guān)鍵字審核,用戶發(fā)布次數(shù)限制,重復(fù)內(nèi)容過(guò)濾和白/黑名單用戶。

1. 關(guān)鍵詞審核

詞語(yǔ)過(guò)濾的環(huán)節(jié),關(guān)鍵詞主要分為三類:

1)禁止關(guān)鍵詞

只要匹配到這個(gè)詞,內(nèi)容就被自動(dòng)刪除或禁止提交。通常只有極少數(shù)詞會(huì)被納入禁止關(guān)鍵詞,比如明確的色情、邪教以及廣告的專屬關(guān)鍵詞。

2)審核關(guān)鍵詞

這是最常見的關(guān)鍵詞種類,只要匹配到就會(huì)自動(dòng)進(jìn)入后臺(tái)進(jìn)行審核,文章中的關(guān)鍵詞會(huì)被高亮并羅列出來(lái),有助于審核人員快速判斷。審核關(guān)鍵詞也應(yīng)該盡量是專屬關(guān)鍵詞,以防止太多內(nèi)容被攔截到后臺(tái)。

3)替換關(guān)鍵詞

在許多平臺(tái),我們會(huì)在文中看到莫名的號(hào)或字母縮寫*,這可能不是文章作者寫的,而是這個(gè)詞被系統(tǒng)自動(dòng)替換。平臺(tái)不希望出現(xiàn)這個(gè)關(guān)鍵詞,但用別的代替讀者通常也能讀懂。比如一些政治、宗教、不文明用語(yǔ)類詞語(yǔ),都有可能被自動(dòng)替換。

當(dāng)然,管理員在添加關(guān)鍵詞時(shí),很多時(shí)候并不是直接把關(guān)鍵詞添加到后臺(tái)。否則用戶用很簡(jiǎn)單的方式就可以避過(guò)關(guān)鍵詞過(guò)濾,比如在關(guān)鍵詞內(nèi)加一個(gè)空格,系統(tǒng)就難以匹配到。

所以,一般后臺(tái)都會(huì)支持限定符{x} 以限定相鄰兩字符間可忽略的文字,x 是忽略的字節(jié)數(shù)。在Discuz!網(wǎng)站后臺(tái)有明確說(shuō)明,如 “a{1}s{2}s”(不含引號(hào)) 可以過(guò)濾 “ass” 也可過(guò)濾 “axsxs” 和 “axsxxs” 等等。

對(duì)于中文字符,若使用 GBK、Big-5 版本,每個(gè)中文字符相當(dāng)于 2 個(gè)字節(jié);若使用 UTF-8 版本,每個(gè)中文字符相當(dāng)于 3 個(gè)字節(jié)。

另外,關(guān)鍵詞還可以支持正則表達(dá)式,來(lái)匹配具有一定模式的關(guān)鍵詞。比如”/1\d{10}([^\d]+|$)/”(不包括引號(hào))用來(lái)匹配手機(jī)號(hào)碼。正則表達(dá)式的內(nèi)容過(guò)多,大家有興趣可以搜索學(xué)習(xí)一下。

2. 用戶發(fā)布次數(shù)限制

主要限制一名用戶無(wú)限制地發(fā)送評(píng)論。

對(duì)這種情況可以設(shè)置同一用戶一分鐘內(nèi)最多發(fā)送一條評(píng)論;一小時(shí)內(nèi)最多發(fā)送10條評(píng)論,一天最多發(fā)送三十條評(píng)論,評(píng)論次數(shù)如果超出時(shí)則彈出toast“發(fā)言太多累了吧,請(qǐng)休息下”的提示。

其實(shí)這個(gè)限制上線后,發(fā)現(xiàn)發(fā)廣告的人會(huì)不斷注冊(cè)新號(hào)來(lái)規(guī)避這個(gè)問題,后續(xù)可以考慮再加上。新用戶需注冊(cè)多長(zhǎng)時(shí)間才可發(fā)布評(píng)論,或需綁定手機(jī)號(hào)才可以發(fā)布評(píng)論這些嚴(yán)格的條件。

3. 重復(fù)內(nèi)容過(guò)濾

這種一般都是對(duì)于發(fā)廣告的。

對(duì)比時(shí)去掉除漢字外的任何符號(hào),如“抖丶音”、“快aabb手”,對(duì)比時(shí)用“抖音”“快手”;將評(píng)論與同一用戶上條評(píng)論作對(duì)比,10個(gè)漢字以上的若與其中一條重復(fù)率達(dá)70%(20,60%;30,50%)則彈出toast“請(qǐng)不要發(fā)布重復(fù)內(nèi)容”;同時(shí)將評(píng)論僅與評(píng)論庫(kù)最近發(fā)布50條的評(píng)論作對(duì)比,20個(gè)漢字以上的若與其中一條重復(fù)率達(dá)80%則機(jī)審失敗(30,70%;50,60%);

在對(duì)比重復(fù)內(nèi)容時(shí)一定要去掉一些無(wú)關(guān)的符號(hào)。因?yàn)楹芏嘈V告喜歡加空格,逗號(hào)這些。他們也通常備用好幾條文案,可以將評(píng)論庫(kù)的拿出來(lái)對(duì)比;這樣也可以規(guī)避他們換號(hào),換文案的問題。

4. 白名單用戶,黑名單用戶

白名單用戶、黑名單用戶需要有個(gè)可編輯的后臺(tái),可隨時(shí)增減;若同一用戶一天內(nèi)機(jī)審失敗的評(píng)論超過(guò)10,則自動(dòng)列入黑名單。

白名單的用戶不受發(fā)布次數(shù)限制,但內(nèi)容需要檢查廣告詞、敏感詞、屏蔽詞,如果一天內(nèi)發(fā)布的評(píng)論超過(guò)10條機(jī)審失敗,也自動(dòng)列入黑名單。列在黑名單的用戶發(fā)布評(píng)論時(shí),彈出toast“您暫時(shí)無(wú)法發(fā)布評(píng)論”或機(jī)審直接失敗。

最后補(bǔ)充下,其實(shí)沒有對(duì)IP進(jìn)行限制是因?yàn)樵诠矃^(qū)域的wifi好像IP是一樣的,盡管非常希望處理掉垃圾評(píng)論這一問題,但我還是希望在不影響到普通用戶的前提下。

以上基本是一個(gè)內(nèi)容審核都需要了解的點(diǎn)了。

 

本文由 @咩咩咩 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來(lái)自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 審核

    來(lái)自上海 回復(fù)
  2. 審核需不需要保留審核記錄?

    來(lái)自福建 回復(fù)
    1. 當(dāng)然需要

      回復(fù)
  3. 審核

    回復(fù)
    1. 1

      回復(fù)
  4. 后臺(tái)功能設(shè)計(jì)怎樣考慮減輕審核人員的負(fù)擔(dān)呢

    來(lái)自上海 回復(fù)
    1. 快捷鍵、任務(wù)流式推送、在加一些輔助識(shí)別關(guān)鍵詞什么的

      回復(fù)
  5. 為甚跟這一篇這么像,誰(shuí)抄誰(shuí)的?http://22none.com/it/3844120.html

    來(lái)自上海 回復(fù)
  6. 試一下評(píng)論是否有審核

    來(lái)自廣東 回復(fù)
    1. 人人怕是先審后發(fā)吧

      來(lái)自四川 回復(fù)
    2. 看來(lái)結(jié)果是先發(fā)后審

      來(lái)自四川 回復(fù)
    3. 看來(lái)結(jié)果是先發(fā)后審大大大大大大

      來(lái)自四川 回復(fù)
  7. 好的

    回復(fù)
  8. 好想

    回復(fù)
  9. 試一下先審后發(fā)

    回復(fù)
  10. 寫的淺顯易懂,邏輯清晰

    來(lái)自廣東 回復(fù)
  11. 大佬方便留個(gè)微信嘛?

    來(lái)自廣東 回復(fù)
  12. 人工圖審 的任務(wù)分配可以指點(diǎn)一下嗎 謝謝

    來(lái)自北京 回復(fù)
  13. 請(qǐng)教一下樓主,如果一篇文章后臺(tái)人工審核通過(guò)了,是否還需要保留審核不通過(guò)的按鈕呢?就是這篇文章在后臺(tái)有審核通過(guò)和拒絕兩種操作,如果我操作審核通過(guò)了,那么審核拒絕這個(gè)按鈕后面還需要保留嗎?

    來(lái)自湖北 回復(fù)
    1. 通常狀況下是保留的 或者采用其他留置按鈕以備隨時(shí)下線

      回復(fù)
  14. 111

    來(lái)自北京 回復(fù)
  15. 感謝分享??吹轿恼掳l(fā)布有一段時(shí)間了,想請(qǐng)問一下作者,對(duì)于大量注冊(cè)新號(hào)以規(guī)避發(fā)布次數(shù)限制的現(xiàn)象(黑灰產(chǎn)賬號(hào)),現(xiàn)在有辦法解決嗎?

    來(lái)自北京 回復(fù)
    1. 這種就不能依托簡(jiǎn)單的審核策略了,大量的注冊(cè)新號(hào)和發(fā)布黑灰產(chǎn)內(nèi)容是存在共性特征的,這部分如果用人審解決的話成本很高識(shí)別率也會(huì)低,一般大廠會(huì)專門的做對(duì)應(yīng)的反作弊算法模型。

      來(lái)自北京 回復(fù)
  16. 現(xiàn)在好像還挺做內(nèi)容審核服務(wù)平臺(tái)誒,什么情況下自己做,什么情況下直接買服務(wù)好呢?

    來(lái)自廣東 回復(fù)
    1. 同問+1

      回復(fù)
    2. 1、在公司本身有內(nèi)容風(fēng)控框架或內(nèi)容風(fēng)控體系能人,滿足公司運(yùn)營(yíng)成本的情況下可以自己做。
      2、公司本身無(wú)內(nèi)容風(fēng)控體系相關(guān)能力,短期僅為應(yīng)急的情況下,可直接買服務(wù),在使用服務(wù)的過(guò)程中逐步完善公司內(nèi)部?jī)?nèi)容風(fēng)控體系,說(shuō)到底,內(nèi)容安全風(fēng)控掌握在公司內(nèi)部的安全性比買服務(wù)要高很多很多

      來(lái)自四川 回復(fù)
  17. 贊一個(gè)

    回復(fù)
  18. 寫實(shí)操內(nèi)容的作者不多了,點(diǎn)個(gè)贊

    來(lái)自北京 回復(fù)
  19. 圖文審核的話感覺會(huì)更加復(fù)雜 ??

    來(lái)自上海 回復(fù)
    1. 還行,就是熟練度的問題,上手很容易

      來(lái)自北京 回復(fù)
    2. 圖片是怎么樣的審核?有對(duì)應(yīng)的策略嗎?

      回復(fù)
    3. 要先確定內(nèi)容是否合規(guī)以及是否有版權(quán)風(fēng)險(xiǎn),第二點(diǎn)的話可以接入相關(guān)API輔助檢測(cè)。

      來(lái)自上海 回復(fù)
专题
80209人已学习19篇文章
当AI已然成为新的焦点和风口,产品经理该如何抓住这个风口顺势飞起?
专题
11791人已学习12篇文章
数据管理系统在后期能够为企业提供基础数据服务,保证企业往更好的方向运营。本专题的文章分享了如何做好数据管理。
专题
11688人已学习11篇文章
考勤打卡系统几乎是每个公司的必备,是员工管理系统中的一个分支,常见的打卡方式有指纹打卡、人脸打卡、蓝牙打卡等等。本专题的文章分享了考勤打卡产品的设计指南。
专题
14123人已学习12篇文章
本专题的文章分享了SaaS产品的商业模式和产品定价。
专题
12788人已学习15篇文章
知识付费是内容赛道上的一块高地,有着上百亿的市场规模。本专题的文章分享了关于对知识付费的观点。
专题
34933人已学习13篇文章
为了给用户提供更好的体验,你需要一套合理的推送策略。