大數(shù)據(jù)人才,到底應(yīng)具備哪些技能?

0 評論 1350 瀏覽 12 收藏 11 分鐘

想成為大數(shù)據(jù)人才,究竟應(yīng)該具備哪些技能?這篇文章里,作者從數(shù)據(jù)分析流程、職業(yè)技能等維度做了相應(yīng)的分享,不妨一起來看看吧。

我是西索,最近這段時間,和幾個大廠的TL 做分析「價值」方面的探討,在大數(shù)據(jù)時代要怎么才能發(fā)揮更高的數(shù)據(jù)價值,剛好涉及到這部分的討論,把討論結(jié)果做個分享,供同行參考。

這幾年聽到最多的一個聲音,我們要開始“卷”價值了。那么“你的價值體現(xiàn)是什么?”、“當(dāng)前還有多少價值可以做”、“接下來我們要創(chuàng)造什么價值”…

一、認(rèn)識數(shù)據(jù)分析流程

對于剛?cè)胄械耐瑢W(xué)來說,需要了解大數(shù)據(jù)分析過程中涉及到的流程和環(huán)節(jié),再結(jié)合大數(shù)據(jù)的要素進(jìn)行能力拆解。

二、認(rèn)識大數(shù)據(jù),不得不了解的4V特性

數(shù)據(jù)分析和大數(shù)據(jù)分析,原始數(shù)據(jù)量大小不同,導(dǎo)致處理方式的不同。

大數(shù)據(jù)分析,主要是利用各種類型的全量數(shù)據(jù)(不是抽樣數(shù)據(jù)),設(shè)計統(tǒng)計方案,得到兼具細(xì)致和置信的統(tǒng)計結(jié)論。在做大規(guī)模數(shù)據(jù)處理的時候,天然存在很多技術(shù)壁壘,必須要用專業(yè)的軟件才能解決,還需要兼顧運(yùn)算時效、計算性能、運(yùn)行成本、數(shù)據(jù)加工技巧等等。

1. 認(rèn)識大數(shù)據(jù)架構(gòu)能力

以下是一個比較典型的大數(shù)據(jù)架構(gòu):

了解大數(shù)據(jù)平臺的底層構(gòu)成,增加對工具的認(rèn)知,了解不同產(chǎn)品之間的共性和差異性,在真實建設(shè)場景中才能做好針對性的方案設(shè)計。

大數(shù)據(jù)平臺、關(guān)系型數(shù)據(jù)庫vs非結(jié)構(gòu)式數(shù)據(jù)庫、實時數(shù)據(jù)vs離線數(shù)據(jù)、數(shù)據(jù)調(diào)度工具。

2. 認(rèn)識大數(shù)據(jù)指標(biāo)體系

因為大數(shù)據(jù)的體量很大,為了快速拿到想要的數(shù)據(jù)結(jié)果,就不得不提「數(shù)據(jù)指標(biāo)體系」。指標(biāo)體系的搭建分為兩大步驟:設(shè)計指標(biāo)體系落地指標(biāo)體系。

3. 認(rèn)識大數(shù)據(jù)指標(biāo)體系

關(guān)于大數(shù)據(jù)工具的介紹,可以參考這篇文章:大數(shù)據(jù)常用工具集合。

三、做好大數(shù)據(jù)需要儲備的職業(yè)技能

我們把職業(yè)技能劃分為顯性和隱性兩個方面,從大數(shù)據(jù)各種崗位的job model中可以抽象成為集中能力,見下圖:

1. 必知的管理方法論

在職場中我們會接觸到很多「管理」內(nèi)容,向上管理、向下管理、項目管理、團(tuán)隊管理、需求管理等,提升自己的管理軟實力,加強(qiáng)管理方法的意識塑造,是拉開職場核心競爭力的關(guān)鍵所在。

2. 常用的統(tǒng)計學(xué)知識

分析過程可能是做一些探索性數(shù)據(jù)分析、統(tǒng)計分析、機(jī)器學(xué)習(xí)建模,甚至是做AB測試實驗,最終交付分析報告。數(shù)據(jù)分析離不開統(tǒng)計學(xué)、運(yùn)籌學(xué),以下羅列了日常過程中經(jīng)常用到的統(tǒng)計方法。

3. 重要的商分類知識

“無場景不分析”、“脫離業(yè)務(wù)場景的分析都是耍流氓”等資深數(shù)據(jù)分析師的建議無不說明業(yè)務(wù)場景的重要性,數(shù)據(jù)分析在不同場景下,也有不同的“分析”招式來滿足不同的業(yè)務(wù)需求,熟悉下面的商業(yè)分析模型有助于建立業(yè)務(wù)信賴。

4. 掌握的算法類模型

有監(jiān)督模型,對于企業(yè)銷售的預(yù)測、還是對用戶行為的預(yù)測,都能幫助提升業(yè)務(wù)效率。比如常見的預(yù)測用戶流失分析,及時得到高概率流失的人群名單,運(yùn)營通過提前營銷干預(yù),提高用戶留存率。

無監(jiān)督模型,可以應(yīng)對未知模式的分析。譬如,不知道應(yīng)該把現(xiàn)有人群分成多少個組來進(jìn)行營銷最合適,就可以對人群基于核心特征做無監(jiān)督的聚類分析,得出有效分組的界限。

5. 機(jī)器學(xué)習(xí)和深度學(xué)習(xí)算法

幾個基礎(chǔ)概念:

  • 數(shù)據(jù)集合:訓(xùn)練集、測試集、驗證集;
  • 數(shù)據(jù)檢查:描述性統(tǒng)計(最大、最小、中位數(shù)、眾數(shù)、四分位)、缺省值填充、卡方分布;
  • 數(shù)據(jù)校驗:共軛線性、相關(guān)系數(shù)(Pearson Correlation Coefficient);
  • 特征工程:什么是特征工程、特征工程構(gòu)建、特征工程權(quán)重查看、特征選擇(filter/Wrapper/Embedded)
  • 歸一化:虛擬變量,labelEncoder/OneHotEncoder/get_dummies;此外可以參考核函數(shù)構(gòu)建方法,通過log、ln、e的方式構(gòu)建,縮小極大值之間的數(shù)據(jù)離散度;
  • 數(shù)據(jù)標(biāo)準(zhǔn)化:z-score、max-min scaling;
  • 算法校驗:卡方校驗、5-fold、

機(jī)器學(xué)習(xí):

知識重點:距離、信息熵、梯度、L1/L2、魯棒性(穩(wěn)定性)。

L1-曼哈頓(絕對值相加,不唯一解)、L2-歐氏距離(歐幾里得距離之和,平方和,唯一解)。

無監(jiān)督學(xué)習(xí):

聚類(cluster):k-means、cart(核心是距離-歐式/馬氏/曼哈頓/切比雪夫,高斯密度/正態(tài)分布)。

半監(jiān)督學(xué)習(xí):

監(jiān)督學(xué)習(xí):

回歸(logistic):線性回歸、LR(ridge/lasso,L1/L2)、預(yù)測(Arima、prephet);

分類(classification):KNN、Decsion Tree、XGBoost、Random Forest、GBDT、SVM、Bayes。

深度學(xué)習(xí)

知識重點:損失函數(shù)、核函數(shù)。

用途:文字識別、圖片識別、語音識別、視頻處理。

文本挖掘:

NLP:tf-idf、LDA、CBOW、word bag

目標(biāo)檢測:

神經(jīng)網(wǎng)絡(luò):BP(CNN)、RNN、LSTM。

6. 數(shù)據(jù)可視化的能力

圖表是數(shù)據(jù)可視化的常用表現(xiàn)形式,是對數(shù)據(jù)的二次加工,可以幫助我們理解數(shù)據(jù)、洞悉數(shù)據(jù)背后的真相,讓我們更好地適應(yīng)這個數(shù)據(jù)驅(qū)動的世界。

四、擅長的·愛好的·世界需要的

在布賴恩·費(fèi)瑟斯通豪《遠(yuǎn)見:如何規(guī)劃職業(yè)生涯3大階段》一書中提到,你要不斷問自己這三個問題:我擅長什么?我愛好什么?這個世界需要什么?三者交集的部分,找到自己的目標(biāo),當(dāng)前應(yīng)該做哪些方面的刻意練習(xí),強(qiáng)化優(yōu)勢,用長板補(bǔ)短板。

工作規(guī)劃,是結(jié)合公司整體方向而開展的規(guī)劃過程;個人規(guī)劃,是結(jié)合個人職業(yè)發(fā)展而開展的規(guī)劃過程;彼此之間的交集在于,如何通過規(guī)劃把兩個方面進(jìn)行融合!

而個人職業(yè)成長旅程中有三個定位:崗位定位,管理定位,行業(yè)定位。

  1. 28歲前,用崗位專業(yè)定位自己,你干啥最專業(yè)?
  2. 32歲之前,用管理角色定位自己,你做項目、帶團(tuán)隊、搞運(yùn)營的能力怎么樣?
  3. 38歲之前,用行業(yè)品類定位自己,你在哪一個行業(yè)領(lǐng)域做到了頂尖?

本文由 @鄭小柒是西索啊 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于CC0協(xié)議。

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!