大語言模型實現(xiàn)智能客服知識庫文檔數(shù)據(jù)提取功能

7 評論 9708 瀏覽 68 收藏 9 分鐘

智能客服的知識庫有兩類:機器人知識庫和坐席知識庫,分別是為機器人和坐席進行服務時,提供數(shù)據(jù)的支撐。如何通過大語言模型,讓企業(yè)的文檔可批量上傳,無需更多的整理,直接轉化為有效的QA,供座席和機器人直接調用呢?本文作者對此進行了分析,一起來看一下吧。

上一篇提到了《大語言模型實現(xiàn)智能客服知識庫自動擴寫功能》,這次談下知識庫文檔數(shù)據(jù)提取功能的實現(xiàn)。

一、產(chǎn)品場景和需求

我們知道智能客服的知識庫有兩類:機器人知識庫和座席知識庫。

分別是為機器人和座席進行服務時,提供數(shù)據(jù)的支撐。

智能客服系統(tǒng)會標配知識庫管理功能,常見的形式是樹狀結構,提供分類管理、知識庫條目管理,并支持知識庫的批量導入導出操作。

使用中,企業(yè)需要經(jīng)常性地維護管理知識庫內容,將企業(yè)已有知識內容文檔上傳,但如果是將原文件上傳,則系統(tǒng)最多能支持預覽功能,使用者在操作界面只能點擊打開全文檢索。而如果是機器人知識庫,直接上傳文檔是不可用的,需要操作者手工整理文檔中的內容為機器人標準問答對。

以上是目前絕大多數(shù)主流產(chǎn)品的使用情況。

大語言模型來了,我們提出的需求很簡單,所有企業(yè)的文檔可以批量上傳,無需更多的整理,直接可自動轉化為有效的QA,供座席和機器人直接調用。

二、知識提取實測:PDF文檔內容提取

已有諸多產(chǎn)品使用大語言模型實現(xiàn)PDF文檔數(shù)據(jù)提取,我們先看下已實現(xiàn)的產(chǎn)品的效果。

1. ChatPDF

https://www.chatpdf.com/

界面特別干凈,上傳pdf,然后conversation。

為了測試,我扔了一份100頁的產(chǎn)品手冊進來。

上傳速度很快,最關鍵的時,對話響應也非常的快。

對文檔內容的解析很準確,包括一些隱藏在內部的知識點也可以快速搜索找到。

大語言模型實現(xiàn)智能客服知識庫文檔數(shù)據(jù)提取功能

2. Pandagpt

https://www.pandagpt.io/

網(wǎng)絡問題,訪問有點慢,但是這個對話的樣式,一言難盡,沒有一個版塊不是互相遮擋的,強迫癥死敵。

響應速度差一些,問題回答基本到位,相比ChatPDF,略顯啰嗦。

大語言模型實現(xiàn)智能客服知識庫文檔數(shù)據(jù)提取功能

3. typeset

https://typeset.io/

主打論文檢索的typeset,也支持pdf文檔解讀。

上傳、對話響應都十分緩慢,對話的效果非常不OK,很多知識點無法解讀,一律回復無法找到這個問題的答案。

三、自研框架的選擇

基于OpenAIEmbeddings,官方給出了基于embeddings檢索來解決GPT無法處理長文本和最新數(shù)據(jù)的問題的實現(xiàn)方案。

參考:https://www.datalearner.com/blog/1051681543488862

也可以使用LangChain框架,參考以下內容實現(xiàn)效果。

參考:

ChatGPT怎么建立私有知識庫?:https://www.zhihu.com/question/596838257/answer/3004754396

利用LangChain和國產(chǎn)大模型ChatGLM實現(xiàn)基于本地知識庫的自動問答:https://www.zhihu.com/zvideo/1630964532179812353

另外除了從文檔中抓取數(shù)據(jù),從指定網(wǎng)站URL抓取數(shù)據(jù),實現(xiàn)智能客服外部知識庫,可以借助ChatGPT寫Python代碼,PythonBeautiful Soup庫的實現(xiàn)方式很成熟。

四、智能客服產(chǎn)品設計要點

回到智能客服產(chǎn)品場景中,產(chǎn)品設計使用中要考慮的問題。

1)功能分割

建議為保持原知識庫管理系統(tǒng)的完整,可增加單獨的大語言模型知識庫,避免SaaS產(chǎn)品原來的企業(yè)使用體驗和數(shù)據(jù)庫內容產(chǎn)生交叉影響。

2)書架式管理

模型知識庫同樣支持分類管理,方便使用者管理文檔庫,能夠快速檢索文檔名稱和內容。

提供增刪改查,預覽、批量上傳刪除等操作。并支持以QA問答對的方式全文展示,使用者可以了解到本文檔新增的有效文檔數(shù)據(jù)有多少內容。

3)提供測試對話工具

模型庫中可內置對話測試工具,供使用者先行進行知識點的維護管理。

4)知識庫編輯擴展

提供插件、支持在線改寫編輯,重新讀取。

減少重復上傳給使用者帶來的挫敗感。

5)知識庫關聯(lián)

已測試完成的大模型知識庫,可允許使用者關聯(lián)發(fā)布到座席或者機器人知識庫中,提供對話數(shù)據(jù)的擴展。

如果是機器人知識庫,可以在機器人模板設置關聯(lián),允許流程中各節(jié)點選擇性調用對應的知識庫,這樣也不會破壞原有流程的知識庫體系,增強了部分節(jié)點的知識庫能力。

對于交叉引用知識庫的節(jié)點,權重可以允許調節(jié),一般默認為機器人自身知識庫為主,大模型知識庫輔助。

6)反饋機制

文本對話機器人的訪客端點踩、座席的手工點踩,和語音機器人的手工標記無效問答,都可以幫助反饋大模型知識庫的效果。

以數(shù)據(jù)報表方式展示,手工或自動進行知識維護。

7)功能開關

最后,仍然是設置功能性開關,并關聯(lián)到SaaS產(chǎn)品賬戶角色權限中,可邀請一部分友好客戶星火測試,不斷迭代優(yōu)化。

當然,以上情況,也不限于智能客服產(chǎn)品范疇,一些需要知識管理的場景中,都可以借鑒。

最后還是放出業(yè)內大廠們已實現(xiàn)的產(chǎn)品截圖加以說明:

大語言模型實現(xiàn)智能客服知識庫文檔數(shù)據(jù)提取功能

Z廠的企業(yè)資料庫,關聯(lián)大語言模型自動搜索

大語言模型實現(xiàn)智能客服知識庫文檔數(shù)據(jù)提取功能

大語言模型實現(xiàn)智能客服知識庫文檔數(shù)據(jù)提取功能

T廠的大模型文檔知識抽取和“即搜即問”

期待更多更好的應用落地,有對這方面內容感興趣的朋友,歡迎隨時聯(lián)系。

本文由 @通信產(chǎn)品的那些事 翻譯發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉載。

題圖來自Unsplash,基于CC0協(xié)議。

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 你還可以試試T廠的TextIn的智能文檔抽取,是這個T廠嗎

    來自上海 回復
  2. 求帶,求加入!

    來自北京 回復
  3. t廠,z廠是啥廠

    來自廣東 回復
    1. 看界面截圖logo,Z廠是客服領域的獨角獸,智齒科技。T廠盲猜是騰訊企點?

      來自北京 回復
  4. ”T廠的大模型文檔知識抽取和“即搜即問”截圖,是一個什么樣的系統(tǒng)?可以介紹下嗎?

    來自廣東 回復
  5. 辛苦了

    來自上海 回復
    1. 又碰到了哈哈哈哈

      來自北京 回復