大語言模型實現(xiàn)智能客服知識庫文檔數(shù)據(jù)提取功能
智能客服的知識庫有兩類:機器人知識庫和坐席知識庫,分別是為機器人和坐席進行服務時,提供數(shù)據(jù)的支撐。如何通過大語言模型,讓企業(yè)的文檔可批量上傳,無需更多的整理,直接轉化為有效的QA,供座席和機器人直接調用呢?本文作者對此進行了分析,一起來看一下吧。
上一篇提到了《大語言模型實現(xiàn)智能客服知識庫自動擴寫功能》,這次談下知識庫文檔數(shù)據(jù)提取功能的實現(xiàn)。
一、產(chǎn)品場景和需求
我們知道智能客服的知識庫有兩類:機器人知識庫和座席知識庫。
分別是為機器人和座席進行服務時,提供數(shù)據(jù)的支撐。
智能客服系統(tǒng)會標配知識庫管理功能,常見的形式是樹狀結構,提供分類管理、知識庫條目管理,并支持知識庫的批量導入導出操作。
使用中,企業(yè)需要經(jīng)常性地維護管理知識庫內容,將企業(yè)已有知識內容文檔上傳,但如果是將原文件上傳,則系統(tǒng)最多能支持預覽功能,使用者在操作界面只能點擊打開全文檢索。而如果是機器人知識庫,直接上傳文檔是不可用的,需要操作者手工整理文檔中的內容為機器人標準問答對。
以上是目前絕大多數(shù)主流產(chǎn)品的使用情況。
大語言模型來了,我們提出的需求很簡單,所有企業(yè)的文檔可以批量上傳,無需更多的整理,直接可自動轉化為有效的QA,供座席和機器人直接調用。
二、知識提取實測:PDF文檔內容提取
已有諸多產(chǎn)品使用大語言模型實現(xiàn)PDF文檔數(shù)據(jù)提取,我們先看下已實現(xiàn)的產(chǎn)品的效果。
1. ChatPDF
https://www.chatpdf.com/
界面特別干凈,上傳pdf,然后conversation。
為了測試,我扔了一份100頁的產(chǎn)品手冊進來。
上傳速度很快,最關鍵的時,對話響應也非常的快。
對文檔內容的解析很準確,包括一些隱藏在內部的知識點也可以快速搜索找到。
2. Pandagpt
https://www.pandagpt.io/
網(wǎng)絡問題,訪問有點慢,但是這個對話的樣式,一言難盡,沒有一個版塊不是互相遮擋的,強迫癥死敵。
響應速度差一些,問題回答基本到位,相比ChatPDF,略顯啰嗦。
3. typeset
https://typeset.io/
主打論文檢索的typeset,也支持pdf文檔解讀。
上傳、對話響應都十分緩慢,對話的效果非常不OK,很多知識點無法解讀,一律回復無法找到這個問題的答案。
三、自研框架的選擇
基于OpenAIEmbeddings,官方給出了基于embeddings檢索來解決GPT無法處理長文本和最新數(shù)據(jù)的問題的實現(xiàn)方案。
參考:https://www.datalearner.com/blog/1051681543488862
也可以使用LangChain框架,參考以下內容實現(xiàn)效果。
參考:
ChatGPT怎么建立私有知識庫?:https://www.zhihu.com/question/596838257/answer/3004754396
利用LangChain和國產(chǎn)大模型ChatGLM實現(xiàn)基于本地知識庫的自動問答:https://www.zhihu.com/zvideo/1630964532179812353
另外除了從文檔中抓取數(shù)據(jù),從指定網(wǎng)站URL抓取數(shù)據(jù),實現(xiàn)智能客服外部知識庫,可以借助ChatGPT寫Python代碼,PythonBeautiful Soup庫的實現(xiàn)方式很成熟。
四、智能客服產(chǎn)品設計要點
回到智能客服產(chǎn)品場景中,產(chǎn)品設計使用中要考慮的問題。
1)功能分割
建議為保持原知識庫管理系統(tǒng)的完整,可增加單獨的大語言模型知識庫,避免SaaS產(chǎn)品原來的企業(yè)使用體驗和數(shù)據(jù)庫內容產(chǎn)生交叉影響。
2)書架式管理
模型知識庫同樣支持分類管理,方便使用者管理文檔庫,能夠快速檢索文檔名稱和內容。
提供增刪改查,預覽、批量上傳刪除等操作。并支持以QA問答對的方式全文展示,使用者可以了解到本文檔新增的有效文檔數(shù)據(jù)有多少內容。
3)提供測試對話工具
模型庫中可內置對話測試工具,供使用者先行進行知識點的維護管理。
4)知識庫編輯擴展
提供插件、支持在線改寫編輯,重新讀取。
減少重復上傳給使用者帶來的挫敗感。
5)知識庫關聯(lián)
已測試完成的大模型知識庫,可允許使用者關聯(lián)發(fā)布到座席或者機器人知識庫中,提供對話數(shù)據(jù)的擴展。
如果是機器人知識庫,可以在機器人模板設置關聯(lián),允許流程中各節(jié)點選擇性調用對應的知識庫,這樣也不會破壞原有流程的知識庫體系,增強了部分節(jié)點的知識庫能力。
對于交叉引用知識庫的節(jié)點,權重可以允許調節(jié),一般默認為機器人自身知識庫為主,大模型知識庫輔助。
6)反饋機制
文本對話機器人的訪客端點踩、座席的手工點踩,和語音機器人的手工標記無效問答,都可以幫助反饋大模型知識庫的效果。
以數(shù)據(jù)報表方式展示,手工或自動進行知識維護。
7)功能開關
最后,仍然是設置功能性開關,并關聯(lián)到SaaS產(chǎn)品賬戶角色權限中,可邀請一部分友好客戶星火測試,不斷迭代優(yōu)化。
當然,以上情況,也不限于智能客服產(chǎn)品范疇,一些需要知識管理的場景中,都可以借鑒。
最后還是放出業(yè)內大廠們已實現(xiàn)的產(chǎn)品截圖加以說明:
Z廠的企業(yè)資料庫,關聯(lián)大語言模型自動搜索
T廠的大模型文檔知識抽取和“即搜即問”
期待更多更好的應用落地,有對這方面內容感興趣的朋友,歡迎隨時聯(lián)系。
本文由 @通信產(chǎn)品的那些事 翻譯發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉載。
題圖來自Unsplash,基于CC0協(xié)議。
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務。
你還可以試試T廠的TextIn的智能文檔抽取,是這個T廠嗎
求帶,求加入!
t廠,z廠是啥廠
看界面截圖logo,Z廠是客服領域的獨角獸,智齒科技。T廠盲猜是騰訊企點?
”T廠的大模型文檔知識抽取和“即搜即問”截圖,是一個什么樣的系統(tǒng)?可以介紹下嗎?
辛苦了
又碰到了哈哈哈哈