如何用AI大模型重塑數(shù)據(jù)機(jī)器人

0 評(píng)論 1409 瀏覽 1 收藏 13 分鐘
B端产品经理要负责对目标行业和市场进行深入的分析和调研,了解客户的需求、痛点、期望和行为,找到产品的价值主张 🔗

在數(shù)字化轉(zhuǎn)型的浪潮中,AI大模型正成為重塑數(shù)據(jù)分析和自動(dòng)化流程的關(guān)鍵技術(shù)。本文深入探討了如何運(yùn)用AI大模型構(gòu)建高效、準(zhǔn)確的數(shù)據(jù)機(jī)器人,通過(guò)對(duì)比傳統(tǒng)NLP技術(shù)和現(xiàn)代AI大模型的應(yīng)用,揭示了不同方法的優(yōu)勢(shì)與挑戰(zhàn)。

我19年在螞蟻的時(shí)候獨(dú)立起了個(gè)項(xiàng)目,當(dāng)然這個(gè)項(xiàng)目整體是個(gè)業(yè)務(wù)歸因分析的平臺(tái),但是在這里面我采用了一種新的數(shù)據(jù)分析的用戶交互方式,就是通過(guò)釘釘以IM進(jìn)行問(wèn)答式的分析交互。簡(jiǎn)單說(shuō)就是想看什么樣的數(shù)據(jù),以及分析和歸因都可以通過(guò)自然語(yǔ)言的方式進(jìn)行提問(wèn),然后會(huì)返回具體的結(jié)果。

給大家個(gè)示例:

數(shù)據(jù)機(jī)器人示例-就像這樣支持用戶進(jìn)行自然語(yǔ)言交互

在今天看起來(lái)是不是非常像AI大模型?如果那時(shí)候有大模型的加持肯定過(guò)會(huì)事半功倍,當(dāng)時(shí)采用的方法是非常復(fù)雜的,不過(guò)也有其優(yōu)點(diǎn)就是能保證數(shù)據(jù)的準(zhǔn)確性。

今天就來(lái)教大家如何構(gòu)建問(wèn)答式的數(shù)據(jù)機(jī)器人,以及兩種方式各自的優(yōu)劣。

我之前的方式是采用:NLP分詞+知識(shí)圖譜的方式(在增強(qiáng)分析領(lǐng)域,可以稱為NLQ-Natural Language Query)。這個(gè)過(guò)程是通過(guò)NLP解析用戶自然語(yǔ)言的問(wèn)題轉(zhuǎn)換為SQL,然后通過(guò)SQL在對(duì)應(yīng)的指標(biāo)圖譜中通過(guò)多維指標(biāo)的數(shù)據(jù)關(guān)系進(jìn)行指標(biāo)匯總,最后返回給用戶數(shù)據(jù)結(jié)果。

查詢過(guò)程:用戶自然語(yǔ)言查詢→NLP→SQL→查詢指標(biāo)圖譜→數(shù)據(jù)聚合→圖表和數(shù)據(jù)返回

這里面NLP其實(shí)核心是在做分詞,把時(shí)間、維度和指標(biāo)名解析出來(lái),因?yàn)樵诓樵儠r(shí)是基于指標(biāo)模型(時(shí)間周期+修飾詞+原子指標(biāo))進(jìn)行的,所以只要有查詢的指標(biāo)結(jié)構(gòu)就可以做到。NLP解析出來(lái)后生成的SQL更多的是在做簡(jiǎn)單查詢,假設(shè)用戶要查詢「今日杭州新注冊(cè)用戶數(shù)」的話,對(duì)于SQL來(lái)講就是直接查詢這個(gè)指標(biāo)(select ‘杭州新注冊(cè)用戶數(shù)’ where day=‘今天日期’),但其實(shí)這個(gè)指標(biāo)是通過(guò)知識(shí)圖譜(指標(biāo)圖譜)的圖關(guān)系把「今日」、「杭州」和「新注冊(cè)用戶數(shù)」這幾個(gè)實(shí)體和關(guān)系的數(shù)據(jù)進(jìn)行聚合。

所以復(fù)雜關(guān)系的指標(biāo)數(shù)據(jù)聚合其實(shí)是在知識(shí)圖譜完成的,因?yàn)槿绻孨LP解析后直接生成復(fù)雜SQL的話在那個(gè)時(shí)候技術(shù)并不成熟,當(dāng)然對(duì)于今天的大模型來(lái)說(shuō)生成復(fù)雜的SQL語(yǔ)言是小菜一碟。

去年也就是23年初大模型火熱的時(shí)候我就在思考這個(gè)問(wèn)題,如果通過(guò)大模型來(lái)實(shí)現(xiàn)是否可行,這取決于大模型的NLQ能力——對(duì)指標(biāo)與分析相關(guān)的自然語(yǔ)言的理解以及轉(zhuǎn)化為SQL的準(zhǔn)確性。因?yàn)槿绻ㄟ^(guò)大模型的方式來(lái)實(shí)現(xiàn)的話,取代的是“NLP→SQL→查詢指標(biāo)圖譜”這個(gè)流程環(huán)節(jié),同時(shí)也就不需要構(gòu)建復(fù)雜的知識(shí)圖譜了,只需要像數(shù)倉(cāng)中間層正常構(gòu)建多維的指標(biāo)數(shù)據(jù)寬表就夠了,因?yàn)榕缮笜?biāo)的聚合其實(shí)是在大模型中生成的復(fù)雜查詢SQL。令人興奮的是,大模型的編程語(yǔ)言能力比想象的更強(qiáng)。

一、利用大模型的方式

首先在大模型中設(shè)置提示詞(Prompt):聲明數(shù)據(jù)表結(jié)構(gòu)(表元數(shù)據(jù)信息)→聲明查詢方式→生成SQL

完整機(jī)器人交互查詢過(guò)程:用戶IM自然語(yǔ)言查詢→大模型NLQ→查詢指標(biāo)模型表→圖表和數(shù)據(jù)返回

(這個(gè)過(guò)程和前面的對(duì)比你會(huì)發(fā)現(xiàn)大模型取代了「NLP分詞」、「SQL生成」和「知識(shí)圖譜構(gòu)建」這幾個(gè)很復(fù)雜的環(huán)節(jié)。)

因?yàn)槲覀冋麄€(gè)數(shù)據(jù)指標(biāo)核心還是依托指標(biāo)模型(時(shí)間周期+修飾詞+原子指標(biāo)),所以在提示詞聲明表的元數(shù)據(jù)信息以及查詢方式時(shí)可以把表相應(yīng)的字段約束一下,比如——“時(shí)間”是哪個(gè)字段,基于時(shí)間聚合的話方式是怎樣的(時(shí)間已經(jīng)按照時(shí)間周期標(biāo)簽化了,比如:近1天、近7天。還是字段存儲(chǔ)的是日期,需要根據(jù)日期進(jìn)行篩選后聚合),以及度量(原子指標(biāo))是哪個(gè)字段。

當(dāng)然這些工作也可以不做,就相當(dāng)于把準(zhǔn)確性這個(gè)東西轉(zhuǎn)嫁給了大模型,我測(cè)試過(guò)ChatGPT以及國(guó)內(nèi)的大模型,我們只要把表的元數(shù)據(jù)信息——字段、字段類型、字段中文描述、分區(qū)以及分區(qū)存儲(chǔ)類型(增量 or 存量),這些通過(guò)提示詞聲明好,我們?cè)谕ㄟ^(guò)自然語(yǔ)言查詢的時(shí)候生成的SQL準(zhǔn)確性很高(因?yàn)榇竽P蜁?huì)根據(jù)你的字段描述以及元數(shù)據(jù)信息去進(jìn)行自動(dòng)判斷)。但是對(duì)于成熟產(chǎn)品交付來(lái)講,我們通過(guò)這個(gè)約束的目的是減少錯(cuò)誤率。

不做提示詞約束時(shí)大模型NLQ的實(shí)例:

比如這個(gè)就是我之前測(cè)試大模型NLQ時(shí)的一個(gè)實(shí)例,這個(gè)實(shí)例中我沒(méi)有進(jìn)行過(guò)多的提示就只是聲明了一下表結(jié)構(gòu),大模型就能比較好的理解以及幫我生成SQL。

與國(guó)內(nèi)某大模型的NLQ對(duì)話截圖

這個(gè)用戶明細(xì)表如果變成指標(biāo)模型的多維表的話,表結(jié)構(gòu)如下:

日期 | 注冊(cè)渠道 | 注冊(cè)終端 | 注冊(cè)用戶數(shù)(度量)

即使是變成這樣的指標(biāo)模型表結(jié)構(gòu)的話數(shù)據(jù)形式也是有多樣的,比如:

第①種:
近1天 | 微信 | App | 1000
近7天 | 微信 | App | 26000

第②種:
20240910 | 微信 | App | 1000

20240904 | 微信 | App | 6000

像上面我列出的這兩種數(shù)據(jù)格式對(duì)于指標(biāo)查詢的處理就會(huì)有區(qū)別:

–第①種
select 注冊(cè)用戶數(shù) where 日期=‘近7天’
–第②種
select sum(注冊(cè)用戶數(shù)) where 日期 between ‘20240904’ and ‘20240910’

當(dāng)然上面這兩種數(shù)據(jù)結(jié)構(gòu)的前置數(shù)據(jù)處理邏輯也有區(qū)別,所以會(huì)有不同。我這里給大家舉這個(gè)簡(jiǎn)單的例子是想說(shuō)明,不同公司對(duì)指標(biāo)數(shù)據(jù)的處理邏輯是不同的,要根據(jù)實(shí)際邏輯去看應(yīng)該用什么樣的查詢方式,然后在提示詞中進(jìn)行聲明和約束,否則就會(huì)導(dǎo)致數(shù)據(jù)口徑出錯(cuò)的問(wèn)題。

二、兩種方式的優(yōu)、劣對(duì)比

對(duì)于后一種利用大模型的方式進(jìn)行構(gòu)建(我們稱為v2,前者是v1),很明顯的要簡(jiǎn)單很多,容易實(shí)現(xiàn),甚至說(shuō)不需要太多的技術(shù)含量。但是這里面總會(huì)暗含著不確定性,也就是大模型在NLQ的過(guò)程中會(huì)不會(huì)搞些幺蛾子,這個(gè)在我們使用大模型的時(shí)候就很有體會(huì),猛不丁的給你造個(gè)出人意料的東西出來(lái)(比如在這里就是出人意料的SQL查詢邏輯)。

畢竟用戶看的是數(shù)據(jù)結(jié)果,中間是黑盒,有時(shí)候結(jié)果很難察覺(jué)是否除了問(wèn)題。所以就像總有一個(gè)蒼蠅在你嘴邊飛,不知道哪天就被吃進(jìn)去了…所以就只能盡可能多的約束,但是約束是約束不了生成詭異的SQL代碼邏輯的。

但是對(duì)于前一種方式(v1)來(lái)說(shuō),出錯(cuò)會(huì)意味著查詢失敗,但不會(huì)有“驚喜”!因?yàn)檫@里面主要可能出錯(cuò)的是在NLP分詞的環(huán)節(jié),分詞分不好最多是維度、指標(biāo)的錯(cuò)誤和缺失之類的,把這些分詞結(jié)果加到SQL中進(jìn)行查詢最多就是沒(méi)有數(shù)據(jù)結(jié)果,而不會(huì)“一本正經(jīng)的胡說(shuō)八道”。

所以說(shuō)v1版本的:

優(yōu)勢(shì)是——可以確保查詢出的數(shù)據(jù)的準(zhǔn)確性。

缺點(diǎn)是——構(gòu)建復(fù)雜,會(huì)有很大的技術(shù)壁壘,比如知識(shí)圖譜。

所以研發(fā)用時(shí)會(huì)很久,對(duì)于一般效率的研發(fā)來(lái)講至少要4-6個(gè)月的時(shí)間才能有產(chǎn)品的mvp。

v2版本的:

優(yōu)勢(shì)是——可以很快速的把產(chǎn)品研發(fā)上線,甚至mvp版本2周應(yīng)該就差不多。

缺點(diǎn)是——你要容忍暫時(shí)無(wú)法解決的“驚喜”,問(wèn)題是這種驚喜還不容易發(fā)現(xiàn)和監(jiān)控,甚至不容易察覺(jué)。

有的時(shí)候如果你的數(shù)據(jù)產(chǎn)品數(shù)據(jù)準(zhǔn)確性像中獎(jiǎng)一樣且無(wú)法解決,對(duì)于需要可靠性的場(chǎng)景就直接被pass。但是從另一個(gè)角度來(lái)說(shuō),有很多對(duì)數(shù)據(jù)準(zhǔn)確性沒(méi)有那么嚴(yán)格,但是對(duì)取數(shù)效率比較重視的場(chǎng)景就是一個(gè)很好的產(chǎn)品。并且其實(shí)可以通過(guò)多次的查詢以及經(jīng)驗(yàn)去做簡(jiǎn)單的驗(yàn)證和判斷。

畢竟對(duì)于這么炫酷好用的東西,很多老板可以暫時(shí)容忍一些小缺點(diǎn)的是吧!

以下是一些補(bǔ)充信息

本文中涉及到的一些專業(yè)名詞解釋:

  • NLP:自然語(yǔ)言處理,一般通過(guò)算法模型進(jìn)行語(yǔ)句的分詞、內(nèi)容分析、情緒分析等。
  • 增強(qiáng)分析:通過(guò)機(jī)器學(xué)習(xí)和AI的方式降低數(shù)據(jù)分析成本以及自動(dòng)化的分析挖掘
  • NLQ:自然語(yǔ)言查詢,通過(guò)自然語(yǔ)言的方式轉(zhuǎn)換為查詢語(yǔ)言,比如SQL等。
  • 提示詞(Prompt):通過(guò)提示詞幫助大模型理解用戶的意圖,要做什么事情。
  • 元數(shù)據(jù)(Meta):描述數(shù)據(jù)的數(shù)據(jù),比如像表的元數(shù)據(jù)信息就是指的表名稱、路徑、字段描述之類的相關(guān)信息,與表內(nèi)存儲(chǔ)的數(shù)據(jù)無(wú)關(guān)。

本文涉及到的一些核心專業(yè)知識(shí)點(diǎn):

指標(biāo)模型的構(gòu)建——文中指的是兩方面:

①一方面是指標(biāo)抽象的構(gòu)成方式「時(shí)間周期+修飾詞(維度)+原子指標(biāo)」;

②另一方面是指的基于這種構(gòu)成方式,數(shù)據(jù)表模型的構(gòu)建。

專欄作家

戲說(shuō)貓狗,公眾號(hào):樹(shù)蔭下的貓貓狗狗,人人都是產(chǎn)品經(jīng)理專欄作家。前BAT數(shù)據(jù)產(chǎn)品經(jīng)理,專注于數(shù)字營(yíng)銷Martech與智能風(fēng)控領(lǐng)域,從事企業(yè)數(shù)據(jù)中臺(tái)、數(shù)據(jù)智能化轉(zhuǎn)型與產(chǎn)品解決方案。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載

題圖來(lái)自 Unsplash,基于 CC0 協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!
专题
12417人已学习15篇文章
知识付费是内容赛道上的一块高地,有着上百亿的市场规模。本专题的文章分享了关于对知识付费的观点。
专题
14727人已学习11篇文章
SWOT分析法是互联网人最常用的分析模型之一,将企业内外部条件各方面内容进行综合和概括,进而分析组织的优劣势,面临的机会和威胁的一种方法。本专题的文章分享了如何做SWOT分析。
专题
54899人已学习12篇文章
据说70%的问题都是沟通问题,沟通能力对产品经理太太太重要了。
专题
14338人已学习12篇文章
数据库对于产品经理来说是一个既熟悉又陌生的概念,虽然产品设计中的数据基本都要与数据库交互,但平时的工作中也很少接触到数据库的具体操作和细节。本专题的文章分享了数据库的基础知识。
专题
87522人已学习12篇文章
世间万物皆有套路,面试更是如此,多拿几个靠谱offer。
专题
11855人已学习14篇文章
大多数产品经理都会经历职场晋升和转正述职的时刻,这个时候,你该怎么做准备?本专题的文章分享了述职报告撰写指南。