GPT奇點賦能大數(shù)據(jù)行業(yè),不只是寫SQL還有……——以數(shù)據(jù)全生命周期視角為例
2023年,超級大模型GPT3、GPT4熱浪席卷全球,它的出現(xiàn),為數(shù)字化建設(shè)領(lǐng)域帶來了一次“重生”的契機。當“類人思考”出現(xiàn)后,哪些可以被“加速”、被“繞過”、被“替代”呢?本文作者圍繞數(shù)據(jù)場景下的GPT應(yīng)用,做了詳細的拆解,一起來看一下吧。
1995年,尼古拉斯·尼葛洛龐帝宣布“數(shù)字化時代已經(jīng)到來”,隨之而來的是,數(shù)字化成為各行業(yè)大力投入建設(shè)的基礎(chǔ)設(shè)施。其中,以互聯(lián)網(wǎng)為代表的天生具有數(shù)字化屬性的行業(yè),一直是引領(lǐng)技術(shù)創(chuàng)新的風(fēng)向標,這就包括應(yīng)用人工智能技術(shù)(AI)——超級工具為各行各業(yè)提高生產(chǎn)效率和效能。數(shù)據(jù)與AI之間,是互為促進,相輔相成,有機融合的關(guān)系。
當時間來到2023年,超級大模型GPT3、GPT4熱浪席卷全球(Generative Pre-Trained Transformer,即生成式預(yù)訓(xùn)練Transfomer模型,是一種基于互聯(lián)網(wǎng)的、可用數(shù)據(jù)來訓(xùn)練的、文本生成的深度學(xué)習(xí)模型,可以在海量通用數(shù)據(jù)上進行預(yù)先訓(xùn)練,能大幅提升AI的泛化性、通用性、實用性)。
它的出現(xiàn),為數(shù)字化建設(shè)領(lǐng)域,帶來了一次“重生”的契機,作為從業(yè)者的我們嘗試應(yīng)用GPT4等AGI能力,為企業(yè)內(nèi)部的數(shù)字化建設(shè)做一次“刷新”,當“類人思考”出現(xiàn)后,哪些可以被“加速”、被“繞過”、被“替代”。截止目前,已有GPT的49種應(yīng)用,其中兩項是跟數(shù)據(jù)場景有關(guān)。下面,我們將圍繞數(shù)據(jù)場景下的GPT應(yīng)用,做更細粒度的拆解。
一、數(shù)據(jù)的生命周期
1. 用數(shù)據(jù)時,遇到的問題
業(yè)務(wù)高速發(fā)展帶動數(shù)據(jù)需求高漲,這與數(shù)據(jù)部門的應(yīng)接能力之間存在博弈,這是擺在非天生數(shù)字化屬性的行業(yè)的一道難題。理想中,業(yè)務(wù)需要的數(shù)據(jù)都有,都能找到,可以支持各種維度的解析和創(chuàng)新。而現(xiàn)實是,能用的數(shù)據(jù)有限(A),很多已經(jīng)建設(shè)出來的數(shù)據(jù),大家不認識,不敢用(B),多個雷同數(shù)據(jù)存在使得校對該用哪一個耗時耗力。很多沉睡數(shù)據(jù),已經(jīng)過時,占用著存儲空間(D),使得數(shù)據(jù)存儲成本連年上漲。缺失重要數(shù)據(jù),需要排期開發(fā)(C)。
2. 數(shù)據(jù)生命周期
數(shù)據(jù)產(chǎn)生于業(yè)務(wù)各環(huán)節(jié)中,部分在online的業(yè)務(wù)系統(tǒng)中,另一部分散落在offline(比如,工廠),要將散落在各處的數(shù)據(jù)做好采集(人工錄入、掃碼、RFID),確保必要數(shù)據(jù)進入業(yè)務(wù)數(shù)據(jù)庫中。之后,針對想做分析的數(shù)據(jù),可以放入大數(shù)據(jù)平臺的數(shù)倉中,通過數(shù)據(jù)集成工具,將結(jié)構(gòu)化、非結(jié)構(gòu)化多源異構(gòu)數(shù)據(jù)匯聚到ODS層。根據(jù)數(shù)據(jù)建模方法,數(shù)據(jù)開發(fā)工程師做DWD和DWS層的加工建設(shè),供業(yè)務(wù)的數(shù)據(jù)分析師使用(ADS層),做報表、配看板、提數(shù)等。
為進一步提高數(shù)據(jù)消費效率,通過復(fù)用數(shù)據(jù)API的模式打通最后一公里,降低各系統(tǒng)分別對接的成本。針對一次性,或者長期不用的冷僵數(shù)據(jù),做歸檔和刪除處理,騰出寶貴的存儲空間和計算資源。這套大數(shù)據(jù)平臺,涉及平臺管理能力,以及資產(chǎn)管理模塊。而數(shù)據(jù)治理則橫跨業(yè)務(wù)系統(tǒng)到數(shù)據(jù)平臺的全生命周期中。
3. 人、貨(數(shù)據(jù))、場
大數(shù)據(jù)環(huán)境下的人貨場,跟電商場景中的人貨場有兩點相似,其一,都需要一個存儲貨物的地方——“倉庫”。大數(shù)據(jù)環(huán)境下叫數(shù)據(jù)倉庫。其二,都需要傳輸,大數(shù)據(jù)環(huán)境下叫“加工”。與實體的貨物相比,數(shù)據(jù)具有兩個特殊的屬性,使得,它的存儲和運輸,要比電商場景更為復(fù)雜。這兩個屬性是,“權(quán)限等級”、“體積變化”。
數(shù)據(jù)有等級之分,高敏感的數(shù)據(jù),需要做更嚴格的權(quán)限管控,以確保消費安全。體積變化,是指經(jīng)過一系列的加工(刪除delete、drop、修改alter、增加insert、創(chuàng)建create等),數(shù)據(jù)的整體體積會發(fā)生變化(變大or變小)。這使得存儲or加工計算都需要具備彈性的能力,能包容、承托住數(shù)據(jù)的這些變化。貨物的流通VS數(shù)據(jù)的流通,使得我們還要考慮繼承的問題,跨系統(tǒng)的繼承、權(quán)限繼承、表/字段血緣繼承。這些因素,使得虛擬場景下的“人、數(shù)、場”比實體中的“人、貨、場”更為復(fù)雜。
基于上章節(jié)提及的數(shù)據(jù)生命周期,我們拆解了每個環(huán)節(jié)中,人是誰,在做什么事兒,繼而數(shù)據(jù)會發(fā)生怎樣的變化(體積變大變小,定義更迭)。為了更為清晰的展示這些環(huán)節(jié)中人的角色,我們將他們逐一做了定義,共9個角色,1數(shù)據(jù)生產(chǎn)方、2數(shù)據(jù)擁有者(將數(shù)據(jù)采集到業(yè)務(wù)數(shù)據(jù)庫中)、3數(shù)據(jù)消費方(想用數(shù)據(jù)作分析,接入數(shù)倉)、4數(shù)據(jù)開發(fā)工程師、5數(shù)據(jù)分析師、6終端的小白用戶。過程中,在數(shù)倉范圍內(nèi),有7資產(chǎn)管理者,有8大數(shù)據(jù)平臺的開發(fā)者和管理員。在整個數(shù)據(jù)生命周期范圍內(nèi),有9數(shù)據(jù)治理專家。每個角色,都有其要執(zhí)行的動作,均簡要繪制在圖上,具體不再贅述。
數(shù)據(jù)方面,圖中標注了離線和實時兩種數(shù)倉結(jié)構(gòu),具體的數(shù)倉介紹,網(wǎng)絡(luò)上各種專家分享,內(nèi)容翔實且精彩,不再贅述。
二、GPT介入后數(shù)據(jù)生命周期發(fā)生的變化
【前提】GPT打通大數(shù)據(jù)平臺的數(shù)倉(即要添加企業(yè)專有知識 ,才能提升準確度,讓GPT在企業(yè)內(nèi)部用起來,提醒,這些信息數(shù)據(jù)的交換要在安全允許的范圍內(nèi)進行),以獲取準確的元數(shù)據(jù)信息,這樣在用戶輸入自然語言時,GPT能懂,并返回符合企業(yè)數(shù)據(jù)結(jié)構(gòu)特征的結(jié)果。其次,GPT還具有coding的能力,所以當它跟企業(yè)內(nèi)部各個系統(tǒng)打通后,還可以擴展能力,代替人,執(zhí)行某些既定操作。下面,我們以大數(shù)據(jù)環(huán)境中,6個常見環(huán)節(jié),GPT是如何輔助人類的逐一做拆解。
1. 數(shù)據(jù)集成(聚)
GPT協(xié)助提效ETL:
- Extract-Transform-Load:抽?。╡xtract)轉(zhuǎn)換(transform)加載(load)
- 目前的ETL工具較成熟(如:Kettle、Datastage、Informatica),數(shù)據(jù)開發(fā)人員可以通過輸入和點擊關(guān)鍵信息,自動生成調(diào)度任務(wù),對于沒有ETL工具的公司需要使用GPT。
2. 數(shù)據(jù)開發(fā)&建模(養(yǎng))
1)GPT代寫SQL做數(shù)據(jù)建模和開發(fā)
【前提】將表的元數(shù)據(jù)信息導(dǎo)給 ElasticSearch,結(jié)合 GPT 與 ElasticSearch 服務(wù),提高 SQL 生成結(jié)果的準確性。
2)GPT代為配置數(shù)據(jù)質(zhì)量監(jiān)控告警
【前提】GPT跟數(shù)據(jù)質(zhì)量模塊、調(diào)度模塊、email、飛書等系統(tǒng)打通。
- 第一步: 輸入文字,讓GPT找到目標表(支持一次訪問多張表);
- 第二步:頁面呈現(xiàn)目標表(表頭、部分數(shù)據(jù)),確認準確;
- 第三步:輸入文字,針對這些表,計算,比過往12個月自身波動絕對值最大值還高的指標,高亮標識出來,并給出字段名稱;
- 第四步:輸入文字,針對這些指標,做日常監(jiān)控,計算超過比例,針對波動率大于等于5%的指標(基于經(jīng)驗,大于歷史1年波動絕對值最大值超過5%的,判定為數(shù)據(jù)異常),email通知該表開發(fā)負責(zé)人、下游任務(wù)創(chuàng)建者、消費方,某些指標可能出現(xiàn)異常,請關(guān)注;
【結(jié)論】GPT介入后,可以不做前端質(zhì)量規(guī)則配置平臺,并節(jié)約配置質(zhì)量規(guī)則的人力投入。
3. 資產(chǎn)管理(治)
GPT代做冷僵數(shù)據(jù)歸檔和刪除:
【前提】GPT跟調(diào)度模塊、資產(chǎn)管理模塊、email、飛書等系統(tǒng)打通。
- 第一步:輸入文字,找到半年以上冷僵數(shù)據(jù)(未有動銷,讀、寫、查詢過的表);
- 第二步:輸入文字,確認這些表,是否有配置跑批任務(wù);
- 第三步:輸入文字,讓GPT給這些表的創(chuàng)建者發(fā)送email郵件or飛書提醒,一周后,將自動刪除這些冷僵數(shù)據(jù),若需要保留,請盡快跟資產(chǎn)治理管理員取得聯(lián)系(此為舉例,實際工作中,細節(jié)落實時,會更復(fù)雜些);
- 第四步:輸入文字,讓GPT執(zhí)行刪除冷僵數(shù)據(jù)的操作;
【結(jié)論】GPT介入后,可以不做前端冷僵數(shù)據(jù)歸檔和刪除平臺,可以節(jié)約配置冷僵數(shù)據(jù)定時刪除規(guī)則的人力投入。
4. 平臺管理(管)
GPT代建權(quán)限申請流程:
【前提】GPT跟低代碼流程中心、大數(shù)據(jù)權(quán)限管理模塊打通。
- 第一步:當人們通過輸入文字,問GPT,尋找某張表時,看過元數(shù)據(jù)信息,確保是目標表,此時,若用戶沒有權(quán)限,可以請GPT幫忙做權(quán)限申請;
- 第二步:GPT根據(jù)該表的敏感等級,及審批要求。向申請人的直屬老板、表的開發(fā)負責(zé)人、業(yè)務(wù)負責(zé)人、安全管理員逐層發(fā)起申請,過程中,某個環(huán)節(jié)可隨時增加審批節(jié)點;
- 第三步:審批結(jié)束后,是通過還是駁回,GPT都會通過飛書oremail,or站內(nèi),GPT與人的交互端口,即時向申請者反饋信息;
【結(jié)論】GPT介入后,可以不做繁雜的定制化的權(quán)限審批流程,可以由安全與業(yè)務(wù)同學(xué)達成一致后,給GPT輸入自然語言,形成審批流,以此節(jié)約研發(fā)人力投入。
5. 數(shù)據(jù)分析(用)
GPT代做“自助提數(shù)”:
【前提】1、與權(quán)限(行列權(quán)限和加解密),安全審計能力打通。2、打通元數(shù)據(jù),確保GPT生成SQL時,對表、字段的描述跟數(shù)倉保持一致,可以直接使用。
第一步:輸入文字,找目標表(支持一次訪問多張表)?!袄缥蚁氩樵傾表,在P條件下的x、y、z字段,可以直接輸出SQL語句。當然,經(jīng)過預(yù)訓(xùn)練,或者在數(shù)據(jù)源僅有一張表的情況下,描述話語甚至可以更加簡略。在訓(xùn)練輸入了多張表結(jié)構(gòu)后,也可以支持關(guān)聯(lián)分析?!?/p>
第二步:嘗試在原有SQL的基礎(chǔ)上修改一些條件“保留23年第一季度的結(jié)果”。
第三步:嘗試增刪改查表或者對表中數(shù)據(jù)進行更新“幫我把價格表中的用戶單價上調(diào)10%”。
第四步:嘗試,將SQL翻譯為自然語言,以助于幫助了解SQL。
備注:以上是以EverSQL產(chǎn)品舉例。
雖然GPT能快速撰寫高質(zhì)量的SQL,但是對于不能接受任何誤差的數(shù)據(jù)場景,準確理解業(yè)務(wù)需求,并關(guān)聯(lián)到所需的表和字段,需要一定的預(yù)訓(xùn)練以提高準確度??焖儆?xùn)練GPT提升特定場景匹配能力,會成為分析師核心競爭力之一。
【結(jié)論】GPT介入后,可以不做自助提數(shù)的前端平臺,特別是拖拉拽的平臺,直接用SQL取數(shù)能力即可,可以降低寫SQL的門檻,可以節(jié)約用SQL配置模版的人力投入。針對復(fù)用場景,直接將“prompt”保存下來,只要有權(quán)限訪問,即可復(fù)用。
6. BI看板(用)
GPT生成“圖表”:
【前提】GTP跟圖表生成工具打通。
- 第一步:同2.1第一步
- 第二步:同2.1第二步
- 第三步:輸入文字,告知要哪些行、哪些列,生成柱狀、餅狀、折線圖等
【結(jié)論】GPT介入后,快速支撐業(yè)務(wù)的臨時性看板需求(自助),可以節(jié)約數(shù)據(jù)分析師配置看板人力投入(只做長期高頻BI看板,針對臨時性的業(yè)務(wù)需求,特別是緊急的,無需排隊等待,業(yè)務(wù)小白可以讓GPT制作)。
7. 業(yè)務(wù)應(yīng)用(用)
- GPT支持搜索
- 元數(shù)據(jù)查詢
- 數(shù)據(jù)查找
- 找圖、找表
【結(jié)論】GPT介入后,后續(xù)甚至是語音輸入,即可,無需碼字,在移動端調(diào)取數(shù)據(jù)會更加方便,很適合銷售門店等offline無PC電腦的場景。
基于以上建設(shè),大數(shù)據(jù)場景下向數(shù)字孿生方向的發(fā)展加快了步伐。美國國防部、微軟在工業(yè)化等數(shù)字孿生場景中(模型建設(shè)、場景設(shè)計),均引入生成式AI。智能問答、語音交互獲取數(shù)據(jù)將會實現(xiàn)。
受作者領(lǐng)域認知深度所限,及技術(shù)無時無刻不在更新迭代,業(yè)界對GPT、AutoGPT、AGI、即時AI……的衍生應(yīng)用必定是珠零錦粲。無法在一篇中盡現(xiàn)全貌,未來可能會徹底推翻當下的種種嘗試而不得知。能為大家?guī)ヒ稽c點新的啟發(fā),以深感欣慰。文中難免有紕漏或不準確的地方,歡迎大家批評指正。撰寫中參考網(wǎng)絡(luò)上各位同仁的最新觀點,拿來主義為打招呼,還望見諒。若有任何建議或意見,歡迎聯(lián)系作者探討。
關(guān)鍵詞:Chat GPT、生成式AI、AIGC、LLM、AGI、SQL、大數(shù)據(jù)、數(shù)據(jù)開發(fā)、數(shù)據(jù)建模、自助取數(shù)
參考資料:
https://baike.baidu.com/item/GPT/62908731?fromModule=lemma_search-box
https://baijiahao.baidu.com/s?id=1761984800865030846&wfr=spider&for=pc
作者:shucay,佳琪,童,alan,伯敖
本文由@shucay 授權(quán)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
寫的不錯。有思維高度。辛苦了