談?wù)凙I產(chǎn)品經(jīng)理的產(chǎn)品開發(fā)流程

3 評(píng)論 11376 瀏覽 152 收藏 13 分鐘

本文作者以智能文檔審閱系統(tǒng)和工業(yè)互聯(lián)網(wǎng)數(shù)字孿生一故障預(yù)測(cè)為例,介紹AI產(chǎn)品經(jīng)理在產(chǎn)品開發(fā)全流程過(guò)程中,每一階段的工作內(nèi)容、工作流程及注意事項(xiàng),并結(jié)合具體案例進(jìn)行分析,希望能給你帶來(lái)一些啟發(fā)。

本文以智能文檔審閱系統(tǒng)(IDP)和工業(yè)互聯(lián)網(wǎng)數(shù)字孿生—故障預(yù)測(cè)為例,介紹AI產(chǎn)品經(jīng)理在產(chǎn)品開發(fā)全流程過(guò)程中,每一階段的工作內(nèi)容、工作流程及注意事項(xiàng),并結(jié)合具體案例方便對(duì)AI產(chǎn)品經(jīng)理感興趣的同學(xué)予以了解。文中盡量避免使用特征向量、歸一化、RNN等專業(yè)詞匯,可放心閱讀。

一、需求定義

內(nèi)容:這一初始階段集中在從業(yè)務(wù)角度理解項(xiàng)目的目標(biāo)和要求,然后把理解轉(zhuǎn)化為模型能力的定義和一個(gè)初步執(zhí)行計(jì)劃。不僅要有整體技術(shù)研判力(可行性、技術(shù)難度、關(guān)鍵技術(shù)點(diǎn)),還要有業(yè)務(wù)洞察力,可以定義出可執(zhí)行有價(jià)值的好問(wèn)題。

流程:

注意:AI產(chǎn)品經(jīng)理在本階段要特別注意模型能力邊界和模型類型確定。

案例:

這里說(shuō)的模型類型除了回歸、分類、聚類、序列之外,還要基于具體業(yè)務(wù)考慮其他情形,比如在線還是離線,因?yàn)槿绻繕?biāo)客戶比較注重?cái)?shù)據(jù)安全,可能就會(huì)要求私有化部署,不允許連接外網(wǎng)調(diào)用模型接口。AI產(chǎn)品經(jīng)理在需求分析階段明確模型基礎(chǔ)要求,也方便工程師在后續(xù)模型預(yù)研及成本分析方面提前有所考慮。

關(guān)于模型能力邊界。請(qǐng)看這一條業(yè)務(wù)需求“系統(tǒng)自動(dòng)抽取合同簽訂日期、中標(biāo)通知書通知日期并進(jìn)行時(shí)序性校驗(yàn),合同簽訂日期不能早于中標(biāo)通知書通知日期”,AI產(chǎn)品經(jīng)理需要將此條業(yè)務(wù)需求的實(shí)現(xiàn)分解成先由模型執(zhí)行抽取任務(wù)后,再由系統(tǒng)(平臺(tái))進(jìn)行時(shí)序性比較。因?yàn)椴煌愋湍P涂蓤?zhí)行的下游任務(wù)不同,僅以自然語(yǔ)言處理任務(wù)層級(jí)舉例,如下圖,我們這里提到的模型能力邊界指的是第三次,即信息抽取、情感分析、問(wèn)答系統(tǒng)、機(jī)器翻譯和對(duì)話系統(tǒng)等。

自然語(yǔ)言處理任務(wù)層級(jí)

二、模型預(yù)研

內(nèi)容:需求確定之后,AI產(chǎn)品經(jīng)理需要和工程師進(jìn)行溝通,要判斷目前積累的數(shù)據(jù)和沉淀的算法,是否可以達(dá)到我們的業(yè)務(wù)需求。以及對(duì)原始數(shù)據(jù)的初步理解,發(fā)掘值得關(guān)注的數(shù)據(jù)子集以形成對(duì)隱藏信息的假設(shè)。

流程:

注意:在這個(gè)環(huán)節(jié)中,可能還需要根據(jù)算法工程師的預(yù)估,對(duì)上一階段的需求內(nèi)容進(jìn)行調(diào)整。

案例:此階段往往需要AI產(chǎn)品經(jīng)理跟算法工程師經(jīng)過(guò)多輪溝通,根據(jù)業(yè)務(wù)目標(biāo)及原始數(shù)據(jù)質(zhì)量的預(yù)估,確定模型預(yù)研的可行性等問(wèn)題。比如以智能文檔分析(IDP)系統(tǒng)舉例,因?yàn)槲臋n類型及業(yè)務(wù)規(guī)則的多樣性往往需要多個(gè)模型共同完成一項(xiàng)業(yè)務(wù)需求,比如對(duì)一份合同的審核既需要對(duì)合同基本信息的抽?。ㄈ缂追健⒁曳?、簽訂日期),也需要對(duì)合同中建設(shè)內(nèi)容的相似性進(jìn)行判斷,還需要對(duì)合同中的表格數(shù)據(jù)進(jìn)行分析。這就需要AI產(chǎn)品經(jīng)理與工程師多次溝通,確定模型融合等解決方案的設(shè)計(jì)。

三、數(shù)據(jù)準(zhǔn)備

內(nèi)容:數(shù)據(jù)和特征決定了機(jī)器學(xué)習(xí)的上限,而模型和算法只是逼近這個(gè)上限。“數(shù)據(jù)準(zhǔn)備”階段往往會(huì)占用整個(gè)工程60%以上的時(shí)間。產(chǎn)品經(jīng)理基于對(duì)業(yè)務(wù)的理解,幫助工程師判斷哪些數(shù)據(jù)集更具備代表性,以及明確數(shù)據(jù)來(lái)源、數(shù)據(jù)質(zhì)量處理措施。

流程:

注意:“數(shù)據(jù)質(zhì)量”問(wèn)題除了數(shù)據(jù)模式層面,還要關(guān)心應(yīng)用場(chǎng)景下的數(shù)據(jù)質(zhì)量問(wèn)題,應(yīng)用場(chǎng)景相關(guān)的數(shù)據(jù)質(zhì)量問(wèn)題,與研究問(wèn)題的范疇和業(yè)務(wù)上下文有關(guān),通常不容易發(fā)現(xiàn),有一定規(guī)律但不存在通用的方法。

案例:“數(shù)據(jù)異?!币苍S是被忽略的一些“正常場(chǎng)景”。

【業(yè)務(wù)背景】風(fēng)電機(jī)組大部分采用同步變槳,在正常情形下,三個(gè)槳距角應(yīng)該非常接近。因此,在變槳驅(qū)動(dòng)系統(tǒng)異常研判中,常常會(huì)將三個(gè)槳距角的不一致性(如角度差或短期時(shí)序相關(guān)度)作為一個(gè)重要特征。

【數(shù)據(jù)現(xiàn)象1】如下圖所示,某個(gè)風(fēng)電機(jī)組在2013年8月9日21:45—21:47的表現(xiàn)。三個(gè)槳距角的初始值都在87.5°左右,然后三個(gè)槳距角逐步變?yōu)?°。

控制電路重啟造成三個(gè)槳距角的大差異

【業(yè)務(wù)解讀】這個(gè)過(guò)程實(shí)際上是調(diào)試過(guò)程中,變槳控制系統(tǒng)逐個(gè)重啟造成的。在2013年8月9日21:45:40左右,第一個(gè)變槳控制電路進(jìn)行了人工重啟,然后依次對(duì)第二個(gè)、第三個(gè)進(jìn)行了重啟。

【對(duì)數(shù)據(jù)準(zhǔn)備的啟發(fā)】對(duì)于關(guān)鍵數(shù)據(jù)、關(guān)鍵結(jié)果要做必要的數(shù)據(jù)探索(畫圖或者看統(tǒng)計(jì)分布),數(shù)據(jù)中包含的內(nèi)容超過(guò)我們的“預(yù)設(shè)”和“專家經(jīng)驗(yàn)”。

四、模型構(gòu)建

內(nèi)容:AI產(chǎn)品經(jīng)理基于對(duì)需求和業(yè)務(wù)的理解,配合算法工程師進(jìn)行數(shù)據(jù)集的準(zhǔn)備、模型訓(xùn)練、參數(shù)調(diào)優(yōu)等等,及時(shí)跟進(jìn)模型的目標(biāo)優(yōu)化,針對(duì)突發(fā)問(wèn)題做出調(diào)整和決策。

流程:

注意:前面有提到“數(shù)據(jù)和特征決定了機(jī)器學(xué)習(xí)的上限,而模型和算法只是逼近這個(gè)上限?!彼惴üこ處焸兓ㄙM(fèi)在特征工程建立上面的時(shí)間,基本上占整個(gè)模型構(gòu)建的 60%。AI產(chǎn)品經(jīng)理在此階段要盡量結(jié)合業(yè)務(wù)經(jīng)驗(yàn)預(yù)判、保證特征的穩(wěn)定性。

案例:磨煤機(jī)堵磨檢測(cè)。

【數(shù)據(jù)特征】磨煤機(jī)堵磨研判,幾小時(shí)內(nèi),電流持續(xù)上升,伴隨入口風(fēng)量下降。預(yù)將入口風(fēng)量作為特征數(shù)據(jù)預(yù)測(cè)磨煤機(jī)堵磨。

【業(yè)務(wù)經(jīng)驗(yàn)】入口風(fēng)量影響因素太多,測(cè)量穩(wěn)定性差,不應(yīng)作為主要研判依據(jù):多臺(tái)磨煤機(jī)共用一個(gè)管道,它們的入口風(fēng)量存在強(qiáng)耦合。

五、模型宣講

內(nèi)容:產(chǎn)品經(jīng)理組織業(yè)務(wù)及算法相關(guān)同事一起參與,算法同事幫忙說(shuō)明使用了什么算法和選擇這個(gè)算法的原因,這個(gè)模型選擇了哪些重要特征,訓(xùn)練的樣本,以及算法同學(xué)的測(cè)試方案與結(jié)果。AI產(chǎn)品經(jīng)理要有目的的引導(dǎo)業(yè)務(wù)了解算法邏輯,并可以用非技術(shù)語(yǔ)言跟領(lǐng)導(dǎo)及客戶解釋清楚模型邏輯。

流程:無(wú)

注意:此階段主要對(duì)特征的來(lái)源,訓(xùn)練樣本的合理性以及測(cè)試結(jié)果是否符合業(yè)務(wù)預(yù)期,是否合理進(jìn)行評(píng)估預(yù)判。

案例:無(wú)

六、模型驗(yàn)收

內(nèi)容:在模型評(píng)估環(huán)節(jié),產(chǎn)品經(jīng)理需要做的是,根據(jù)業(yè)務(wù)需求挑選合適的測(cè)試樣本,請(qǐng)算法同學(xué)進(jìn)行測(cè)試,并且提交測(cè)試結(jié)果。最后,再根據(jù)模型宣講和測(cè)試的內(nèi)容編寫模型驗(yàn)收?qǐng)?bào)告。

流程:

注意:在不同場(chǎng)景下,由于我們的業(yè)務(wù)目標(biāo)不同,對(duì)模型的要求不同,對(duì)模型統(tǒng)計(jì)性指標(biāo)的關(guān)注點(diǎn)也不會(huì)相同。AI產(chǎn)品經(jīng)理需要明確知道針對(duì)不同的AI模型對(duì)應(yīng)不同的評(píng)估指標(biāo),并根據(jù)業(yè)務(wù)需求提出模型驗(yàn)收要求。

案例:模型的評(píng)估主要包括三個(gè)部分:統(tǒng)計(jì)性、模型性能和模型穩(wěn)定性。

統(tǒng)計(jì)性指標(biāo)指的就是模型輸出結(jié)果的覆蓋度、最大值、最小值、人群分布等指標(biāo)。以模型覆蓋度為例,它表示模型可以覆蓋人群的百分比,它的計(jì)算公式是:模型的覆蓋度= 模型可以打分的人數(shù) / 需要模型打分的人數(shù)。覆蓋度越高,代表模型可以打分的人數(shù)越多,也就是說(shuō)模型可以評(píng)估更多人。如果模型覆蓋度過(guò)低,即使它的性能表現(xiàn)很好,在某些業(yè)務(wù)場(chǎng)景下模型也不可用。

模型性能和穩(wěn)定性評(píng)估:分類模型的性能評(píng)價(jià)指標(biāo)主要包括:混淆矩陣、KS、AUC 等?;貧w模型的性能評(píng)價(jià)指標(biāo)主要包括:MAE(平均絕對(duì)誤差)、MSE(均方誤差)、RMSE(均方根誤差)、R 方等。具體指標(biāo)的介紹及分析有很多資料介紹,感興趣的同學(xué)可以查一下,這里不再贅述。

工程開發(fā)、測(cè)試驗(yàn)收模塊與傳統(tǒng)互聯(lián)網(wǎng)沒(méi)有區(qū)別這里不再過(guò)多介紹。此外對(duì)于在線模型,在上線運(yùn)營(yíng)后需要對(duì)模型評(píng)估指標(biāo)及特征持續(xù)性關(guān)注,可建立簡(jiǎn)單的監(jiān)測(cè)系統(tǒng)定時(shí)監(jiān)查。

參考書籍:

田春華 :《工業(yè)大數(shù)據(jù)分析算法實(shí)戰(zhàn)》

車萬(wàn)翔:《自然語(yǔ)言處理:基于預(yù)訓(xùn)練模型的方法》

劉海峰:《AI產(chǎn)品經(jīng)理:方法、技術(shù)與實(shí)戰(zhàn)》

本文由 @葉秋 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash,基于CC0協(xié)議。

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 這個(gè)所謂流程也不是通用的吧,感覺(jué)就只適合工業(yè)產(chǎn)品

    來(lái)自上海 回復(fù)
    1. 嗯嗯,是的

      來(lái)自北京 回復(fù)
  2. 不妥之處多多指正哈,v:shsky231

    來(lái)自北京 回復(fù)