ChatGPT的勝利,宣告知識(shí)圖譜的消亡?

2 評(píng)論 5777 瀏覽 9 收藏 13 分鐘
🔗 B端产品经理需要进行售前演示、方案定制、合同签订等,而C端产品经理需要进行活动策划、内容运营、用户激励等

知識(shí)圖譜可以將不同領(lǐng)域、不同語言的知識(shí)整合起來,形成一個(gè)大規(guī)模的知識(shí)庫,幫助人們更好地理解和使用知識(shí)。而ChatGPT不用借助知識(shí)圖譜就可以很好地解決用戶對(duì)話知識(shí)問答相關(guān)的任務(wù),具有非常強(qiáng)大的理解能力、流暢的對(duì)話能力和上下文的刻畫能力。未來,ChatGPT會(huì)取代知識(shí)圖譜嗎?

過去10年,知識(shí)圖譜可謂是最接近“人工智能”的概念。業(yè)內(nèi)普遍認(rèn)為,知識(shí)圖譜的概念最先是由谷歌于2012年正式提出,主要用來支撐下一代搜索和在線廣告業(yè)務(wù)。

此后,這項(xiàng)技術(shù)迅速火爆,被國內(nèi)外多家搜索引擎公司所采用,如:美國的微軟必應(yīng),中國的百度、搜狗等,都在短短的一年內(nèi)紛紛宣布了各自的“知識(shí)圖譜”產(chǎn)品,足以看出這項(xiàng)革新對(duì)整個(gè)搜索引擎界的整體影響。

但這項(xiàng)技術(shù)的應(yīng)用并不僅拘泥于搜索引擎領(lǐng)域范圍。由于讓人工智能具備了認(rèn)知能力和邏輯能力,知識(shí)圖譜進(jìn)而實(shí)現(xiàn)了智能分析、智能搜索、人機(jī)交互、個(gè)性化推薦等場(chǎng)景應(yīng)用,成為互聯(lián)網(wǎng)知識(shí)驅(qū)動(dòng)的智能應(yīng)用的基礎(chǔ)設(shè)施。

可以說知識(shí)圖譜與大數(shù)據(jù)和深度學(xué)習(xí)一起,成為推動(dòng)互聯(lián)網(wǎng)和人工智能發(fā)展的核心驅(qū)動(dòng)力之一。

然而,ChatGPT的橫空出世讓整個(gè)AI界都沸騰了。

ChatGPT帶來的震撼在于,它不用借助知識(shí)圖譜就可以很好地解決用戶對(duì)話知識(shí)問答相關(guān)的任務(wù),具有非常強(qiáng)大的理解能力、流暢的對(duì)話能力和上下文的刻畫能力。

更重要的是,它將原來基于特定任務(wù)的模型變成了一個(gè)統(tǒng)一的、基于提示的、任務(wù)無關(guān)的模型,可以去嘗試解決非常復(fù)雜或困難的、人類參與很多的任務(wù)。

這也讓AI界認(rèn)知產(chǎn)生了分化,有觀點(diǎn)認(rèn)為有了ChatGPT這種大語言模型后,知識(shí)圖譜完全沒有存在的意義,甚至有的公司已經(jīng)徹底拋棄了知識(shí)圖譜路線。

那么,在大模型時(shí)代,知識(shí)圖譜真的要消亡了嗎?

一、知識(shí)圖譜VS大語言模型

在討論這個(gè)問題之前,先來了解一下知識(shí)圖譜和大語言模型的異同。

知識(shí)圖譜從字面上看,可以拆分為知識(shí)+圖譜,這樣就可以理解:將需要的知識(shí)數(shù)據(jù)(結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù))以圖譜的形式進(jìn)行展示,這種簡(jiǎn)單的過程也是知識(shí)圖譜的構(gòu)建過程。

知識(shí)圖譜通常包含實(shí)體、關(guān)系和屬性三個(gè)要素,例如人名、國家、語言等實(shí)體,以及人口、首都、官方語言等關(guān)系和屬性。它可以根據(jù)圖譜中定義的關(guān)系提供精確且邏輯一致的答案,因此對(duì)于信息檢索、問答和結(jié)構(gòu)化數(shù)據(jù)推理等任務(wù)特別有用。

大語言模型是基于深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò),像GPT-4這樣的大語言模型是在大量文本數(shù)據(jù)上進(jìn)行訓(xùn)練,以學(xué)習(xí)模式、上下文以及單詞和短語之間的關(guān)系。

它們可以生成類似人類的文本、回答問題、提供建議以及執(zhí)行其他自然語言任務(wù),還可以很好地處理模棱兩可和不完整的信息,并且處理廣泛的主題。

不難發(fā)現(xiàn),兩者在知識(shí)的學(xué)習(xí)、分析、推理方面有著類似的功能,但卻各有優(yōu)劣勢(shì)。

知識(shí)圖譜通常需要手動(dòng)或半自動(dòng)構(gòu)建,是一種非常耗時(shí)耗人力的工作,隨著知識(shí)的不斷擴(kuò)展和變化,知識(shí)圖譜也需要不斷更新;

同時(shí),它的作用僅限于圖譜編碼中的知識(shí)范圍,這使得它在處理模棱兩可或不完整的信息時(shí)準(zhǔn)確率較低。

但它的優(yōu)勢(shì)在于準(zhǔn)確的知識(shí)庫,對(duì)于事實(shí)性的、專業(yè)性的知識(shí)有著非常高的準(zhǔn)確度。

相反,專業(yè)知識(shí)在大模型訓(xùn)練語料里占比非常少,這也使得ChatGPT等語言大模型生成的內(nèi)容的可靠性和真實(shí)性備受質(zhì)疑。

它無法將真實(shí)與想象、真實(shí)與虛構(gòu)分開,這種現(xiàn)象甚至促使創(chuàng)造了一個(gè)新術(shù)語:人工智能幻覺,維基百科將其定義為“人工智能的自信反應(yīng),其訓(xùn)練數(shù)據(jù)似乎沒有合理性”。

同時(shí),語言大模型需要大量的計(jì)算能力和資源來進(jìn)行訓(xùn)練和微調(diào),其花費(fèi)的時(shí)間和成本也不容小覷。

目前,語言大模型只在通用領(lǐng)域給出了較為驚艷的表現(xiàn),至于在知識(shí)圖譜廣泛應(yīng)用的垂直領(lǐng)域,語言大模型暫時(shí)未顯示出領(lǐng)先的一面。

二、知識(shí)圖譜退場(chǎng)為時(shí)尚早

正因?yàn)檎Z言大模型暫時(shí)還無法解決事實(shí)準(zhǔn)確性、可信度、可追溯等問題,知識(shí)圖譜的存在就非常有意義。

知識(shí)圖譜或者類似的知識(shí)庫、知識(shí)引擎,能夠?yàn)榇竽P吞峁?zhǔn)確的知識(shí),它可以被用來通知、聚焦、過濾和控制生成式人工智能,增強(qiáng)大模型響應(yīng)的智能和可靠性,使其更適合關(guān)鍵任務(wù)。

當(dāng)大模型真正落地到工業(yè)應(yīng)用時(shí),也需要有知識(shí)圖譜對(duì)專業(yè)領(lǐng)域知識(shí)的支撐,至少短期來看是非常需要的。

因此,我們也可以說,知識(shí)圖譜的構(gòu)建原來有各種各樣的構(gòu)建方式,現(xiàn)在又多了一種構(gòu)建方式——用大模型去輔助整個(gè)知識(shí)圖譜構(gòu)建,通過大量語料和大數(shù)據(jù)的學(xué)習(xí),通過Prompt去進(jìn)行知識(shí)的激發(fā)。

同時(shí)知識(shí)圖譜反過來也能夠去推動(dòng)大模型Prompt工程里的相關(guān)工作,融入到大模型的訓(xùn)練中,使得生成更可控,更準(zhǔn)確。同時(shí),知識(shí)圖譜也可以提供很多額外的語義信息,幫助大模型的知識(shí)推理做得更好。

所以從本質(zhì)上看,大語言模型出現(xiàn)后,并不是將知識(shí)圖譜消滅了,而是可以發(fā)揮知識(shí)圖譜和大模型這兩種技術(shù)的優(yōu)勢(shì):在需要可控知識(shí)或可控邏輯的時(shí)候,知識(shí)圖譜會(huì)發(fā)揮更大作用;在需要更自由的交互任務(wù)理解和生成時(shí),大模型發(fā)揮更好的作用。

結(jié)合這兩種方法的優(yōu)勢(shì),可以產(chǎn)生更強(qiáng)大和有效的自然語言處理系統(tǒng)。

三、知識(shí)圖譜與大語言模型的結(jié)合

那么,知識(shí)圖譜如何與大語言模型相結(jié)合呢?

有意思的是,ChatGPT給出了將知識(shí)圖譜集成到大語言模型中的幾種方法:

1)使用知識(shí)圖譜數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練

將知識(shí)圖譜中的知識(shí)注入到大語言模型的預(yù)訓(xùn)練階段,可以幫助大模型學(xué)習(xí)實(shí)體與其屬性之間的關(guān)系。可以通過將知識(shí)圖譜三元組(主語、謂語、賓語)轉(zhuǎn)換為自然語言句子并將它們添加到訓(xùn)練語料庫中來完成。

2)使用基于圖的目標(biāo)進(jìn)行微調(diào)

在預(yù)訓(xùn)練之后,使用基于圖的目標(biāo)對(duì)特定任務(wù)的模型進(jìn)行微調(diào),可以幫助大模型學(xué)習(xí)使用圖中編碼的知識(shí)進(jìn)行推理和推理。這可能涉及將自然語言查詢轉(zhuǎn)換為基于圖形的查詢,以及開發(fā)將基于圖形的推理與基于文本的推理相結(jié)合的方法。

例如,可以對(duì)模型進(jìn)行微調(diào),以預(yù)測(cè)圖形中缺失的實(shí)體或關(guān)系,這可以提高其對(duì)底層結(jié)構(gòu)的理解。

3)改進(jìn)實(shí)體鏈接和消除歧義

增強(qiáng)模型識(shí)別文本中的實(shí)體并將其鏈接到知識(shí)圖譜中相應(yīng)節(jié)點(diǎn)的能力。這可以通過在訓(xùn)練或微調(diào)期間結(jié)合高級(jí)實(shí)體鏈接和消除歧義技術(shù)來實(shí)現(xiàn)。

4)集成圖嵌入

圖嵌入是一種用于將圖中的節(jié)點(diǎn)、邊或整個(gè)子圖轉(zhuǎn)換為連續(xù)向量或低維表示的技術(shù),機(jī)器學(xué)習(xí)算法可以更輕松地處理這些向量或低維表示。

圖嵌入在知識(shí)工程的上下文中特別有用,因?yàn)樗梢詭椭鷮⒅R(shí)圖譜中的結(jié)構(gòu)化信息轉(zhuǎn)換為可以更容易地與機(jī)器學(xué)習(xí)算法(尤其是神經(jīng)網(wǎng)絡(luò))集成的格式。

使用圖神經(jīng)網(wǎng)絡(luò)或其他圖表示學(xué)習(xí)方法學(xué)習(xí),并可用于豐富模型對(duì)實(shí)體及其關(guān)系的理解。

5)推理時(shí)查詢知識(shí)圖譜

當(dāng)模型遇到需要精確、結(jié)構(gòu)化知識(shí)的問題或任務(wù)時(shí),可以查詢知識(shí)圖譜獲取相關(guān)信息。這可以通過將自然語言查詢轉(zhuǎn)換為基于圖形的查詢(例如,使用SPARQL),然后使用檢索到的信息來回答問題或執(zhí)行任務(wù)來完成。

6)知識(shí)圖譜引導(dǎo)生成

將大語言模型的生成能力與知識(shí)圖譜中的結(jié)構(gòu)化信息相結(jié)合,可以生成更準(zhǔn)確、更相關(guān)的文本。例如,在生成實(shí)體的摘要或描述時(shí),模型可以對(duì)知識(shí)圖譜中的信息進(jìn)行優(yōu)先級(jí)排序,以確保事實(shí)的正確性。

7)混合模型

開發(fā)包含基于圖和基于神經(jīng)網(wǎng)絡(luò)的組件的混合模型,可以利用這兩種方法的優(yōu)勢(shì)。例如,圖神經(jīng)網(wǎng)絡(luò)(GNN)可用于學(xué)習(xí)圖結(jié)構(gòu)數(shù)據(jù)的潛在表示,然后可以將其與大語言模型集成以執(zhí)行自然語言處理任務(wù)。

8)鼓勵(lì)可解釋性和可解釋性

開發(fā)允許大語言模型基于知識(shí)圖譜為其推理和預(yù)測(cè)生成解釋的方法。這可以幫助用戶了解模型如何利用知識(shí)圖譜中的結(jié)構(gòu)化信息,并有助于調(diào)試和優(yōu)化模型。

四、結(jié)語

技術(shù)的浪潮總是洶涌而至,在新的技術(shù)革新來臨之際,我們更應(yīng)該客觀看待新舊技術(shù)的優(yōu)劣,而不是沖動(dòng)地去擁抱新技術(shù),拋棄現(xiàn)有成熟技術(shù)。

對(duì)于知識(shí)圖譜來說,大模型的出現(xiàn)并不是一個(gè)沖擊,恰恰是給了知識(shí)圖譜一個(gè)新的生長(zhǎng)空間。當(dāng)我們將大模型與自身優(yōu)勢(shì)的行業(yè)應(yīng)用去深度結(jié)合,形成數(shù)據(jù)和算法的持續(xù)迭代,必將看到更好的結(jié)果持續(xù)涌現(xiàn)。

本文由@科技云報(bào)到 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自 Unsplash,基于 CC0 協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 消亡啥啊,chatgpt訓(xùn)練優(yōu)化的不需要用到知識(shí)圖譜?

    來自北京 回復(fù)
    1. 這尼瑪這個(gè)自媒體就離譜!拉黑他!

      來自上海 回復(fù)
专题
64903人已学习17篇文章
每个网站或APP,发展到了一定的阶段,用户积分体系都是不可或缺的。
专题
11263人已学习12篇文章
从二维到三维空间的过渡,其交互范式也会随之从2D GUI时代转换到3D UI时代。本专题的文章分享了XR空间交互指南。
专题
80049人已学习19篇文章
当AI已然成为新的焦点和风口,产品经理该如何抓住这个风口顺势飞起?
专题
13539人已学习13篇文章
本专题的文章分享了如何打造用户“上瘾”的产品。
专题
31214人已学习16篇文章
在线教育的现状、趋势和未来。
专题
19470人已学习13篇文章
本专题分享了内容审核的设计思路。