AI產(chǎn)品經(jīng)理如何做好數(shù)據(jù)準(zhǔn)備工作

老張
2 評(píng)論 8213 瀏覽 20 收藏 7 分鐘
B端产品经理要负责对目标行业和市场进行深入的分析和调研,了解客户的需求、痛点、期望和行为,找到产品的价值主张 🔗

編輯導(dǎo)語(yǔ):在所有產(chǎn)品類(lèi)型中,AI產(chǎn)品是市場(chǎng)上較為吃香的。在AI產(chǎn)品領(lǐng)域,數(shù)據(jù)的準(zhǔn)備工作是開(kāi)始正式工作之前同樣重要的一部分。那么,該如何做好數(shù)據(jù)準(zhǔn)備工作呢?

所有的產(chǎn)品類(lèi)型中,估計(jì)AI產(chǎn)品是最吃數(shù)據(jù)的了,要訓(xùn)練模型必須喂養(yǎng)大量的數(shù)據(jù),2020 年 6 月 9 日,一款顱內(nèi)腫瘤核磁共振影像輔助診斷軟件獲得了中國(guó)藥監(jiān)局審批,拿到了影像輔助診斷領(lǐng)域的首張 III 類(lèi)醫(yī)療器械證。

這套人工智能軟件對(duì)腦腫瘤的診斷準(zhǔn)確率超過(guò) 90%,對(duì)其中常見(jiàn)類(lèi)型的診斷準(zhǔn)確率達(dá)到 96%。訓(xùn)練這款軟件的算法模型喂養(yǎng)了上百萬(wàn)份影像病例,海量數(shù)據(jù)、強(qiáng)大算力以及高分辨率,讓人工智能歸納出來(lái)的一套新經(jīng)驗(yàn),使得它在影像診斷領(lǐng)域取得突破的基礎(chǔ)。

可以這么說(shuō),在AI產(chǎn)品領(lǐng)域,數(shù)據(jù)、算法、算力三分天下,同樣重要,數(shù)據(jù)的準(zhǔn)備工作是開(kāi)始產(chǎn)品設(shè)計(jì)和開(kāi)發(fā)的必要的前期工作。

數(shù)據(jù)準(zhǔn)備工作主要包括兩個(gè)部分,第一是數(shù)據(jù)收集,第二是數(shù)據(jù)清洗。

一、數(shù)據(jù)收集

數(shù)據(jù)收集顧名思義,就是收集訓(xùn)練所需的數(shù)據(jù),比如說(shuō),我要做一個(gè)人臉識(shí)別的模型,那么肯定是要收集人臉數(shù)據(jù),我要做個(gè)對(duì)話(huà)機(jī)器人系統(tǒng),肯定要收集語(yǔ)料數(shù)據(jù),我要做個(gè)有無(wú)佩戴安全帽識(shí)別,肯定要收集人帶安全帽的數(shù)據(jù)。

我要做個(gè)寵物狗的品類(lèi)識(shí)別模型,就要收集各種狗的圖像數(shù)據(jù),并分類(lèi)存儲(chǔ)。

數(shù)據(jù)收集簡(jiǎn)而言之,就是把數(shù)據(jù)分類(lèi)存儲(chǔ)好的過(guò)程,就像是我們做法,先去買(mǎi)菜的過(guò)程,并把菜分類(lèi)存儲(chǔ)好的過(guò)程。

目前,數(shù)據(jù)收集主要有三個(gè)來(lái)源,分別是數(shù)據(jù)服務(wù)商采購(gòu)、公開(kāi)網(wǎng)絡(luò)收集、內(nèi)部數(shù)據(jù)。

數(shù)據(jù)提供商提供的數(shù)據(jù)一般質(zhì)量都比較好,數(shù)據(jù)比較大。可以直接拿來(lái)做模型訓(xùn)練工作。只不過(guò)這類(lèi)數(shù)據(jù)一般價(jià)格比較高。

而且這類(lèi)數(shù)據(jù)的類(lèi)型一遍是通用型,對(duì)于一些小品類(lèi),垂直領(lǐng)域的的數(shù)據(jù)服務(wù)商一般沒(méi)有。例如下面這些,是一家外部提供商提供的數(shù)據(jù)。

網(wǎng)絡(luò)公開(kāi)的數(shù)據(jù)比較好理解,就比如訓(xùn)練提問(wèn)意圖,需要大量的提問(wèn)意圖的短句,這時(shí)候可以從知乎爬取。因?yàn)橹跏莻€(gè)問(wèn)答平臺(tái)。

第三種內(nèi)部數(shù)據(jù),也比較好理解,如果有內(nèi)部數(shù)據(jù)肯定是先用內(nèi)部數(shù)據(jù),他的獲取成本最低,還有就是一些小眾垂直領(lǐng)域,外部無(wú)法獲取也只能從內(nèi)部獲取。

例如疫情初期,北京腫瘤醫(yī)院新冠肺炎智能識(shí)別是基于5000多個(gè)病例的 CT 影像樣本數(shù)據(jù),學(xué)習(xí)訓(xùn)練樣本的病灶紋理,研發(fā)了全新的AI算法模型,可在20秒內(nèi)快速完成新冠肺炎影像的分析,分析結(jié)果準(zhǔn)確率達(dá)96%。這些CT影像就屬于內(nèi)部數(shù)據(jù)。

二、數(shù)據(jù)清洗

數(shù)據(jù)收集完成之后還不能直接拿來(lái)用,需要做數(shù)據(jù)清洗,把這些數(shù)據(jù)變成可用的數(shù)據(jù)。這就好比從菜市場(chǎng)買(mǎi)完菜之后做洗菜和切菜的過(guò)程。

數(shù)據(jù)清洗主要是清洗三類(lèi)數(shù)據(jù):

數(shù)據(jù)缺失解決辦法大體分為兩種,第一種是直接刪除,第二種是做填補(bǔ)。

數(shù)據(jù)格式不統(tǒng)一比較好解決,直接做歸一化處理就好。

存在異常值的情況,只需要找到異常值,并剔除掉就好。針對(duì)不同的數(shù)據(jù)的異常值找到方法也不盡相同。例如某學(xué)校3萬(wàn)人體檢,手工錄入每個(gè)人體重,可以用3σ定律檢驗(yàn)可找出錄入錯(cuò)誤數(shù)據(jù)。

三、總結(jié)

數(shù)據(jù)收集和數(shù)據(jù)清洗工作在整個(gè)建模過(guò)程中很重要,數(shù)據(jù)的好壞直接影響最后模型的準(zhǔn)確性。但是數(shù)據(jù)收集和數(shù)據(jù)清洗是個(gè)苦活,過(guò)程繁瑣并且技術(shù)含量不高,需要AI產(chǎn)品經(jīng)理和算法工程師一起完成,這塊會(huì)花費(fèi)比較多的時(shí)間,一定要有耐心和細(xì)心。

#專(zhuān)欄作家#

老張,人人都是產(chǎn)品經(jīng)理專(zhuān)欄作家。AI產(chǎn)品經(jīng)理,專(zhuān)注于自然語(yǔ)言處理和圖像識(shí)別領(lǐng)域。現(xiàn)智能保險(xiǎn)創(chuàng)業(yè)公司合伙人,希望與人工智能領(lǐng)域創(chuàng)業(yè)者多多交流。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載

題圖來(lái)自 Unsplash,基于 CC0 協(xié)議

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 博主能不能稍微加點(diǎn)深度, 再寫(xiě)一些. 感謝

    來(lái)自廣東 回復(fù)
    1. 好,我再加把勁

      來(lái)自北京 回復(fù)
专题
55792人已学习20篇文章
产品上线后冷启动怎么做最有效?这是产品经理和运营必须要了解的。
专题
143021人已学习32篇文章
做一个好运营,技术和意识都得过硬。
专题
13913人已学习13篇文章
产品体验报告,是体验者在深入了解某个产品的商业模式、使用场景、产品功能等方面后,所作出的先有深度再到广度的图文分析报告。本专题的文章分享了不同产品的体验报告。
专题
14118人已学习13篇文章
本专题的文章分析了用户运营策略的案例,为如何做用户运营策略提供了思路。
专题
14329人已学习14篇文章
流量难获取,获取之后转化为付费用户更是困难。本专题的文章分享了如何提升付费转化率。
专题
32001人已学习17篇文章
你只知道它火了,却不知道它背后的内容营销秘籍。