大模型在金融領(lǐng)域落地會(huì)遇到哪些坑?

0 評(píng)論 5324 瀏覽 12 收藏 11 分鐘
🔗 产品经理专业技能指的是:需求分析、数据分析、竞品分析、商业分析、行业分析、产品设计、版本管理、用户调研等。

大模型的熱度已經(jīng)高了很久了,但在具體的行業(yè)業(yè)務(wù)落地的應(yīng)用還是在進(jìn)行時(shí),會(huì)遇到不少的問題。這篇文章,作者分享了自己在金融領(lǐng)域的落地經(jīng)驗(yàn),希望能幫到大家。

一、我們做了哪些場(chǎng)景?

  • 客服場(chǎng)景下的會(huì)話小結(jié)
  • 知識(shí)庫的智能搜索:LLM+向量知識(shí)庫+ES兜底
  • 知識(shí)實(shí)時(shí)智能推薦
  • 代碼輔助

二、遇到了哪些坑

1. 會(huì)話小結(jié)

大模型應(yīng)用準(zhǔn)確率怎么提升?

大模型不像是傳統(tǒng)的nlp,雖然大模型準(zhǔn)確率起點(diǎn)高,但是不像nlp可以依靠業(yè)務(wù)的標(biāo)注數(shù)據(jù)進(jìn)行優(yōu)化,那么大模型的云應(yīng)用調(diào)用方(不做本地化和finetun情況下)在業(yè)務(wù)應(yīng)用中如何進(jìn)行模型效果的評(píng)價(jià)和業(yè)務(wù)使用效果的優(yōu)化?就成了一道考題。

剛上線你會(huì)發(fā)現(xiàn)準(zhǔn)確率在60%左右,業(yè)務(wù)想要繼續(xù)提升,部分算法同學(xué)會(huì)說模型能力是調(diào)用別人的,無法進(jìn)行數(shù)據(jù)回流迭代,我也沒辦法?這時(shí)候要擺爛還是繼續(xù)想辦法努力?

幻覺問題:gpt針對(duì)短對(duì)話的小結(jié)會(huì)進(jìn)行自我創(chuàng)造(亂編),這個(gè)在業(yè)務(wù)上是很難被接受的。

實(shí)時(shí)場(chǎng)景的時(shí)延問題:調(diào)大模型的云應(yīng)用尤其是gpt,每次請(qǐng)求到返回的時(shí)間問題無法優(yōu)化。

對(duì)于坐席輔助的場(chǎng)景時(shí)延要求極高,會(huì)話小結(jié)是為了幫助人工自動(dòng)寫事件小結(jié)的,超過5s的小結(jié)基本就失去了幫助坐席減少話后時(shí)長(zhǎng)的作用,但是即使在只調(diào)用一次gpt進(jìn)行小結(jié)的情況下,平均時(shí)延也在10s左右

業(yè)務(wù)上評(píng)價(jià)會(huì)話小結(jié)的指標(biāo)為:要素完備性、要素準(zhǔn)確率、業(yè)務(wù)接受率。如對(duì)會(huì)話小結(jié)這幾個(gè)方面要求較高(細(xì)分場(chǎng)景業(yè)務(wù)細(xì)則,專有名詞),就需要在通用格式的會(huì)話小結(jié)中再加入業(yè)務(wù)要素的補(bǔ)充,則需要多次調(diào)用gpt的場(chǎng)景下,小結(jié)的時(shí)延會(huì)在30s左右。

超過30s后還要不要繼續(xù)回調(diào)用?前端頁面還要不要進(jìn)行輪詢?

連接調(diào)用不穩(wěn)定會(huì)產(chǎn)生漏損:大模型調(diào)用會(huì)有失敗的情況,就像大家用chatgpt的應(yīng)用時(shí)遇到偶發(fā)的不響應(yīng)的情況,這種情況在c端大家容忍度比較高,但是在b端,尤其是嵌入核心作業(yè)流程的場(chǎng)景下,業(yè)務(wù)對(duì)于偶發(fā)的漏損情況比較敏感,小結(jié)的漏損率會(huì)在5%左右。

2. 知識(shí)庫應(yīng)用

相比坐席輔助,知識(shí)庫是一個(gè)對(duì)AI錯(cuò)誤容忍率更低的場(chǎng)景,體現(xiàn)在下面的場(chǎng)景:

  • 數(shù)據(jù)同步問題:業(yè)務(wù)人員批量新增、刪除、更新知識(shí)的時(shí)候,后端調(diào)用大模型接口進(jìn)行embedding或者tokenization的時(shí)候,如遇到大模型調(diào)用不穩(wěn)定報(bào)錯(cuò)就會(huì)導(dǎo)致數(shù)據(jù)同步出現(xiàn)問題。
  • 時(shí)延、并發(fā)問題:gpt模型的請(qǐng)求數(shù)有限制,針對(duì)高并發(fā)(知識(shí)庫上千人使用),搜索時(shí)延要求高(1-2s)的情況下,會(huì)有比較大的壓力,也會(huì)有偶發(fā)的大模型調(diào)用出錯(cuò)的問題。

三、探索解決方案

會(huì)話小結(jié):

搭建“NLP+ChatGPT”的雙層模型,確保業(yè)務(wù)效果的同時(shí)又能節(jié)省大模型的使用費(fèi)用,針對(duì)大模型應(yīng)用在過短對(duì)話時(shí)會(huì)出現(xiàn)“聯(lián)想和想象”的問題,增加了NLP過濾(過濾掉無效對(duì)話)

針對(duì)大模型業(yè)務(wù)應(yīng)用后準(zhǔn)確率需要提升,但很難靠傳統(tǒng)NLP標(biāo)注的方法進(jìn)行學(xué)習(xí)和訓(xùn)練后迭代的問題,聯(lián)合業(yè)務(wù)進(jìn)行了多輪探討和嘗試,用“業(yè)務(wù)要素完備率+關(guān)鍵要素準(zhǔn)確率+業(yè)務(wù)接受度”進(jìn)行評(píng)價(jià),針對(duì)業(yè)務(wù)接受度差的部分,詳細(xì)去看原因,并且提煉通用問題進(jìn)行優(yōu)化,再深入業(yè)務(wù)總結(jié)不同場(chǎng)景小結(jié)的業(yè)務(wù)要求規(guī)則并進(jìn)行提煉,融入prompt,準(zhǔn)確率從57%-82%,準(zhǔn)確率的提升只用了2輪數(shù)據(jù)標(biāo)注和反饋(每次100條),大大節(jié)省了傳統(tǒng) NLP項(xiàng)目大樣本數(shù)據(jù)標(biāo)注的工作

針對(duì)漏損的進(jìn)行批量補(bǔ)跑;監(jiān)測(cè)模型穩(wěn)定性指標(biāo)-小結(jié)平均時(shí)延、小結(jié)的漏損率

坐席輔助

幻覺這個(gè)問題我們是用GPT+NLP雙模型來減少亂編,比如客服與客戶對(duì)話的AI摘要會(huì)預(yù)設(shè)業(yè)務(wù)關(guān)鍵要素,盡量都覆蓋到,且涉及金額、數(shù)量或時(shí)間這類都會(huì)提取參數(shù)記錄,需要走下個(gè)流程分支的會(huì)自動(dòng)生成工單任務(wù)流轉(zhuǎn)…

投訴類會(huì)有客訴評(píng)分,按歷史接觸的客訴傾向語義點(diǎn)及當(dāng)通電話的音量語速等計(jì)算怒氣值,客服的話術(shù)除了情緒安撫外更多是理解客戶解決其問題

ToC不敢直接用,是做了人工中轉(zhuǎn),比如側(cè)邊欄根據(jù)對(duì)話命中意圖或標(biāo)簽自動(dòng)推薦最優(yōu)話術(shù),按相關(guān)度排序,人工可任選一鍵發(fā)送,也可通過API對(duì)接GPT提問后生成話術(shù)

知識(shí)庫:

  • 不穩(wěn)定的情況利用Kafka進(jìn)行依次消費(fèi),任務(wù)失敗后進(jìn)行告警并且重新跑
  • 多個(gè)大模型的api并行處理,提高并發(fā)承載力
  • 大模型+ES多重召回機(jī)制

此外我們?cè)趯?shí)踐過程中也參考了行業(yè)資深大佬關(guān)于向量知識(shí)庫應(yīng)用的見解,很有用,引用如下:

首先,向量化就不是唯一解,也不是全場(chǎng)景最優(yōu)解。

**第一,向量化匹配是有能力上限的。**搜索引擎實(shí)現(xiàn)語義搜索已經(jīng)是好幾年的事情了,為什么一直無法上線,自然有他的匹配精確度瓶頸問題。

第二,本質(zhì)是匹配問題(即找到語義相似知識(shí)),NLP領(lǐng)域原本也有更優(yōu)美,更高效的方案,只是這波熱潮里,很多以前沒接觸過AI的朋友對(duì)之不熟悉罷了。

**第三,甚至不用AI技術(shù),用精確MVSOL、用策略規(guī)則也是一種解法,其至是重要解法。**舊AI時(shí)代的產(chǎn)品同學(xué)會(huì)非常熟悉這種“用規(guī)則/策略/產(chǎn)品設(shè)計(jì)”來彌補(bǔ)AI能力贏弱的問題一一現(xiàn)在是因?yàn)樾袠I(yè)早期,大家被LLM的能力錯(cuò)誤迷惑,并且以往產(chǎn)品經(jīng)理的聲音還沒發(fā)出來而已。

**其次,在引入外部知識(shí)這個(gè)事情上,如果是特別專業(yè)的領(lǐng)域,純粹依賴向量、NLP、策略/規(guī)則在某些場(chǎng)景仍然不奏效。**因?yàn)槟P褪紫刃枰莆漳莻€(gè)領(lǐng)域的專業(yè)知識(shí),才能在這樣一個(gè)基礎(chǔ)能力的加持下,用向量化等手段來便捷地解決外部知識(shí)引入問題。

當(dāng)在模型在基礎(chǔ)知識(shí)中缺乏、或有錯(cuò)誤地學(xué)習(xí)到某些背景知識(shí),即使他有外部知識(shí)庫加持也是無效的最后,不要管是不是90%會(huì)被解決,對(duì)于某個(gè)具體業(yè)務(wù)而言,沒有90%,只有100%和0%;

用向量知識(shí)庫的補(bǔ)丁策略,這個(gè)認(rèn)知很有必要。

1、**把問答域細(xì)化,**給檢索文本分類,打標(biāo)簽處理,以縮小召回目標(biāo)域,提升相關(guān)性。

2、增加問答邏輯。如問題與上下文是否相關(guān),上下文是否可以回答用戶問題的判定邏輯,拒答邏輯。

3、不同種類問答的分流邏輯。打個(gè)比方,問百科,問醫(yī)藥,問金融,走不同的回答邏輯。

4、使用多重召回邏輯?;谙蛄?,基于領(lǐng)域向量,基于es,基于編輯距離等,走投票策略。

5、**增加生成前判定,生成后判定邏輯。**前者判定適合是否該回答,是否該拒答,后者判定是否對(duì)自己回答有置信。

知識(shí)庫的搜索體驗(yàn)優(yōu)化:利用GIO進(jìn)行行為數(shù)據(jù)觀測(cè),P@3、P@5位置的準(zhǔn)確度評(píng)估

四、結(jié)束語

大模型的熱度已經(jīng)高了很久了,但我們和各位同行的老師聊,發(fā)現(xiàn)在金融行業(yè)業(yè)務(wù)落地的應(yīng)用還是在進(jìn)行時(shí),尤其是要能產(chǎn)生業(yè)務(wù)價(jià)值的落地中還是會(huì)遇到各種問題,因此希望分享我們遇到的問題和探索的經(jīng)驗(yàn)幫助也在做此類項(xiàng)目的朋友避坑,當(dāng)然我們的方法不一定是最優(yōu)解,如大家有更好的方法和應(yīng)用方向,期望能夠交流!

本文由 @甜甜圈 Tina 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于CC0協(xié)議。

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒評(píng)論,等你發(fā)揮!
专题
52996人已学习18篇文章
做了好多年的产品经理,该不会连注册登录功能设计都没整明白吧?
专题
17930人已学习17篇文章
数据可视化的方式,能够更加清晰明确的进行数据分析。本专题的文章分享了数据可视化的设计思路。
专题
11923人已学习12篇文章
随着现代科技的不断发展进步,智慧城市的建设也在不断发展,本专题的文章分享了智慧城市设计指南。
专题
14285人已学习13篇文章
数据仓库是所有产品的数据中心,公司体系下的所有产品产生的所有数据最终都流向数据仓库。本专题的文章分享了什么是数据仓库和如何搭建数据仓库。
专题
16929人已学习12篇文章
如何搞懂财务和业务之间的关系,并推进业务系统财务模块的建设呢?本专题的文章分享了财务系统的设计指南。
专题
12930人已学习12篇文章
OTA,在线旅游(Online Travel Agency)指“旅游消费者通过网络向旅游服务提供商预定旅游产品或服务,并通过网上支付或者线下付费。