AI產(chǎn)品經(jīng)理必修課:知識(shí)圖譜的入門(mén)與應(yīng)用

2 評(píng)論 16918 瀏覽 112 收藏 13 分鐘

知識(shí)圖譜是AI的基礎(chǔ)功能,本篇文章筆者就知識(shí)圖譜是什么?如何構(gòu)建知識(shí)圖譜?怎么應(yīng)用?進(jìn)行了討論分析,與大家分享。

一、人工智能時(shí)代已經(jīng)來(lái)臨

伴隨著全球智能手機(jī)銷(xiāo)量的首次下滑,移動(dòng)互聯(lián)網(wǎng)已經(jīng)不可避免地步入了下半場(chǎng)。

與此同時(shí),智能音箱銷(xiāo)量爆發(fā)式增長(zhǎng),ZAO換臉APP刷屏朋友圈……人工智能技術(shù)正在越來(lái)越深刻地影響人們的日常生活。

作為人工智能領(lǐng)域的核心技術(shù)之一,知識(shí)圖譜已經(jīng)成為了AI產(chǎn)品經(jīng)理必須掌握的基礎(chǔ)技能。

二、什么是知識(shí)圖譜?

1. 什么是知識(shí)?

在聊知識(shí)圖譜之前,我們先簡(jiǎn)單了解下什么是知識(shí)。

下圖是在Quora(國(guó)外版知乎)上關(guān)于信息與知識(shí)的對(duì)比圖。

信息是雜亂無(wú)章的點(diǎn),而知識(shí)相對(duì)來(lái)說(shuō)更有邏輯性。在當(dāng)今這個(gè)信息爆炸的時(shí)代,知識(shí)對(duì)人們來(lái)說(shuō)顯然更便于理解和記憶。

圖一,圖片出處:https://www.siilo.com/blog/information-vs-knowledge

2. 什么是知識(shí)圖譜?

知識(shí)圖譜(Knowledge Graph,簡(jiǎn)稱(chēng)KG)的概念由Google在2012年5月提出,初衷是希望借助網(wǎng)絡(luò)多源數(shù)據(jù)構(gòu)建的知識(shí)庫(kù)來(lái)增強(qiáng)語(yǔ)義搜索的效率和質(zhì)量。

Google知識(shí)圖譜團(tuán)隊(duì)負(fù)責(zé)人Amit Singhal認(rèn)為,“The world is not made of strings,but is made of things”。

知識(shí)圖譜的主要作用在于以結(jié)構(gòu)化的方式來(lái)描述客觀世界實(shí)體間的復(fù)雜關(guān)系。通過(guò)在信息與信息之間建立聯(lián)系,人類(lèi)更加容易獲取自己所需要的知識(shí)。

3. 維基百科關(guān)于知識(shí)圖譜的介紹

知識(shí)圖譜是Google用于增強(qiáng)其搜索引擎功能的知識(shí)庫(kù)。

本質(zhì)上, 知識(shí)圖譜旨在描述真實(shí)世界中存在的各種實(shí)體或概念及其關(guān)系,其構(gòu)成了一張巨大的語(yǔ)義網(wǎng)絡(luò)圖,節(jié)點(diǎn)表示實(shí)體或概念,邊則由屬性或關(guān)系構(gòu)成。

三、如何構(gòu)建知識(shí)圖譜?

知識(shí)圖譜的構(gòu)建主要分為知識(shí)體系構(gòu)建、知識(shí)獲取、知識(shí)融合、知識(shí)存儲(chǔ)和檢索、知識(shí)推理、知識(shí)應(yīng)用六個(gè)步驟。

下面是產(chǎn)品視角的知識(shí)圖譜構(gòu)建流程圖:

1. 知識(shí)體系構(gòu)建(建模)

1.1 定義

知識(shí)體系構(gòu)建,也稱(chēng)為知識(shí)建模,是指采取什么樣的方式來(lái)表達(dá)知識(shí),其核心是構(gòu)建一個(gè)本體對(duì)目標(biāo)知識(shí)進(jìn)行描述。

在這個(gè)本體中需要定義出知識(shí)的類(lèi)別體系、每個(gè)類(lèi)別下所屬的概念和實(shí)體、某類(lèi)概念和實(shí)體所具有的屬性以及概念之間、實(shí)體之間的語(yǔ)義關(guān)系,同時(shí)也包括定義在這個(gè)本體上的一些推理規(guī)則。

知識(shí)圖譜是隨著語(yǔ)義網(wǎng)的發(fā)展而出現(xiàn)的概念。語(yǔ)義網(wǎng)的核心目標(biāo)是讓計(jì)算機(jī)能夠理解文檔中的數(shù)據(jù),以及數(shù)據(jù)和數(shù)據(jù)之間的語(yǔ)義關(guān)聯(lián)關(guān)系,從而使得計(jì)算機(jī)可以自動(dòng)化、智能化地處理這些信息。

1.2 RDF三元組

語(yǔ)義網(wǎng)技術(shù)涉及面較廣,這里只介紹與知識(shí)圖譜數(shù)據(jù)建模緊密相關(guān)的核心概念——資源描述框架(RDF)。RDF基本數(shù)據(jù)模型包括了三個(gè)對(duì)象類(lèi)型:資源(resource)、謂詞(predicate)以及陳述(statements)。

  1. 資源:能夠使用RDF表示的對(duì)象稱(chēng)之為資源,包括互聯(lián)網(wǎng)上的實(shí)體、事件和概念等;
  2. 謂詞:謂詞主要描述資源本身的特征和資源之間的關(guān)系;
  3. 陳述:一條陳述包含三個(gè)部分,通常稱(chēng)之為RDF三元組(主題:被描述的資源,謂詞:可以表示主體的屬性,也可以表示主語(yǔ)和賓語(yǔ)之間的關(guān)系,賓語(yǔ):屬性值)。

知識(shí)圖譜將三元組(triple)作為知識(shí)存儲(chǔ)和表示的基本單元。三元組的表現(xiàn)形式有兩種:“實(shí)體—關(guān)系—實(shí)體”、“實(shí)體—屬性—屬性值”。

其中每個(gè)實(shí)體代表現(xiàn)實(shí)世界中一個(gè)獨(dú)一無(wú)二的對(duì)象,并對(duì)應(yīng)全局唯一的ID。

1.3 實(shí)例

下圖中包含了多組三元組信息:

  1. 桃李面包作為一個(gè)實(shí)體,其屬性是公司名稱(chēng),屬性值是桃李面包股份有限公司;
  2. 吳志剛作為實(shí)體,與桃李面包之間是持股關(guān)系,屬性值為具體持股比例;
  3. 吳志剛作為實(shí)體,與盛雅莉之間是親屬關(guān)系,屬性值為夫妻。

2. 知識(shí)獲取

2.1 目標(biāo)

知識(shí)獲取的目標(biāo)是從海量的文本數(shù)據(jù)中通過(guò)信息抽取的方式獲取知識(shí),其方法根據(jù)所處理數(shù)據(jù)源的不同而不同。

2.2 數(shù)據(jù)類(lèi)型

知識(shí)圖譜中數(shù)據(jù)的主要來(lái)源包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)(純文本)。

其中,非結(jié)構(gòu)化文本的信息抽取是構(gòu)建知識(shí)圖譜的核心技術(shù)。

2.3 知識(shí)獲取的基本任務(wù)

  1. 實(shí)體識(shí)別:指從文本中識(shí)別實(shí)體信息;
  2. 實(shí)體消歧:指消除指定實(shí)體的歧義;
  3. 關(guān)系抽取:指獲取兩個(gè)實(shí)體之間的語(yǔ)義關(guān)系;
  4. 事件抽?。褐笍拿枋鍪录畔⒌奈谋局谐槿〕鲇脩舾信d趣的事件信息并以結(jié)構(gòu)化的形式呈現(xiàn)出來(lái)。

3. 知識(shí)融合

知識(shí)融合是對(duì)不同來(lái)源、不同語(yǔ)言或不同結(jié)構(gòu)的知識(shí)進(jìn)行融合,從而對(duì)已有知識(shí)圖譜進(jìn)行補(bǔ)充、更新和去重。

  • 從融合的對(duì)象來(lái)看,包括知識(shí)體系的融合和實(shí)例的融合;
  • 從融合的圖譜類(lèi)型來(lái)看,可以分為豎直方向的融合和水平方向的融合。

4. 知識(shí)存儲(chǔ)

知識(shí)存儲(chǔ)就是研究采取何種方式將已有知識(shí)圖譜進(jìn)行存儲(chǔ)。

4.1 存儲(chǔ)方式

目前知識(shí)圖譜大多是基于圖的數(shù)據(jù)結(jié)構(gòu),存儲(chǔ)方式通常采用RDF格式存儲(chǔ)和圖數(shù)據(jù)庫(kù)(Graph Database),前者例如Google開(kāi)放的Freebase知識(shí)圖譜,后者例如開(kāi)源圖數(shù)據(jù)庫(kù)Neo4j。

4.2 質(zhì)量評(píng)估

有效的質(zhì)量評(píng)估可以對(duì)知識(shí)的可信度進(jìn)行量化,通過(guò)舍棄置信度較低的知識(shí)來(lái)保障知識(shí)圖譜的質(zhì)量。

4.3 知識(shí)更新

(1)更新類(lèi)型

從邏輯上看,知識(shí)圖譜的更新包括概念層的更新和數(shù)據(jù)層的更新。

  1. 概念層的更新是指新增數(shù)據(jù)后獲得了新的概念,需要自動(dòng)將新的概念添加到知識(shí)圖譜的概念層中。
  2. 數(shù)據(jù)層的更新主要是新增或更新實(shí)體、關(guān)系、屬性值,對(duì)數(shù)據(jù)層進(jìn)行更新需要考慮數(shù)據(jù)源的可靠性、數(shù)據(jù)的一致性等,并選擇在各數(shù)據(jù)源中出現(xiàn)頻率高的事實(shí)和屬性加入知識(shí)庫(kù)。

(2)更新方式

  1. 全面更新:指以更新后的全部數(shù)據(jù)為輸入,從零開(kāi)始構(gòu)建知識(shí)圖譜。
  2. 增量更新:以當(dāng)前新增數(shù)據(jù)為輸入,向現(xiàn)有知識(shí)圖譜中添加新增知識(shí)。

相對(duì)而言,前者比較簡(jiǎn)單,但資源消耗大,而后者資源消耗小。

5. 知識(shí)推理

為了解決數(shù)據(jù)的不完備性和稀疏性,需要采取推理的手段發(fā)現(xiàn)已有知識(shí)中隱含的知識(shí)。

目前研究重點(diǎn)在于挖掘兩個(gè)實(shí)體之間隱含的語(yǔ)義關(guān)系。

兩種推理方法:

  1. 基于傳統(tǒng)邏輯規(guī)則的方法進(jìn)行推理,其研究熱點(diǎn)在于如何自動(dòng)學(xué)習(xí)推理規(guī)則,以及如何解決推理過(guò)程中的規(guī)則沖突問(wèn)題;
  2. 基于表示學(xué)習(xí)的推理,即采用學(xué)習(xí)的方式,將傳統(tǒng)推理過(guò)程轉(zhuǎn)化為基于分布式表示的語(yǔ)義向量相似度計(jì)算任務(wù)。

四、如何應(yīng)用知識(shí)圖譜?

伴隨著人工智能浪潮,知識(shí)圖譜已經(jīng)在搜索引擎、智能問(wèn)答、推薦等領(lǐng)域得到了廣泛的應(yīng)用。

1. 智能搜索(實(shí)體關(guān)系)

在智能搜索方面,基于知識(shí)圖譜的搜索引擎,內(nèi)容存儲(chǔ)了大量的實(shí)體以及實(shí)體時(shí)間的關(guān)系,可以根據(jù)用戶問(wèn)句準(zhǔn)確地返回答案。

下圖中,用戶詢(xún)問(wèn)馬云,機(jī)器人便可以準(zhǔn)確地給出馬云的個(gè)人介紹。

當(dāng)存在多個(gè)同名的人時(shí),知識(shí)圖譜可以基于實(shí)體唯一ID進(jìn)行消歧,幫助用戶更加準(zhǔn)確地定位答案。

2. 自動(dòng)問(wèn)答(實(shí)體關(guān)系推理)

在自動(dòng)問(wèn)答方面,可以利用知識(shí)圖譜中實(shí)體及其關(guān)系進(jìn)行推理得到答案。

下圖中,百度“馬化騰是哪里人?”百度會(huì)基于知識(shí)圖譜直接給出馬化騰的出生地。

3. 推薦(實(shí)體關(guān)系)

在推薦方面,可以利用知識(shí)圖譜中實(shí)體的關(guān)系向用戶推薦相關(guān)的產(chǎn)品。

下圖中,用戶詢(xún)問(wèn)“科大訊飛市盈率”,機(jī)器人通過(guò)判斷科大訊飛是一只A股的股票,然后給出了相同屬性其它實(shí)體的推薦。

4. 決策支持

知識(shí)圖譜能夠把領(lǐng)域內(nèi)復(fù)雜知識(shí)通過(guò)信息抽取、數(shù)據(jù)挖掘、語(yǔ)音匹配、語(yǔ)義計(jì)算、知識(shí)推理等過(guò)程精確地描述出來(lái),并且可以描述知識(shí)的演化過(guò)程和發(fā)展規(guī)律,從而為研究和決策提供準(zhǔn)確、可追蹤、可解釋、可推理的知識(shí)數(shù)據(jù)。

下圖中,用戶輸入Bilibili,天眼查企業(yè)圖譜便可以準(zhǔn)確地返回上市公司股東、董監(jiān)高、對(duì)外投資等完整信息,輔助用戶進(jìn)行決策。

#參考文獻(xiàn)#

《智能問(wèn)答》,段楠,周明

《知識(shí)圖譜》,趙軍,劉康,何世柱,陳玉博

《人工智能產(chǎn)品經(jīng)理:人機(jī)對(duì)話系統(tǒng)設(shè)計(jì)邏輯探究》,朱鵬臻

《自然語(yǔ)言處理實(shí)踐:聊天機(jī)器人技術(shù)原理與應(yīng)用》,王昊奮,邵浩等

 

本文由 @Alan 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash,基于CC0協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 回復(fù)
  2. ??

    來(lái)自浙江 回復(fù)