5年增長400倍,Airbnb首位數(shù)據(jù)科學(xué)家揭秘他們到底是怎樣做到的?

0 評論 11634 瀏覽 60 收藏 20 分鐘

五年前我加入了Airbnb,成為公司第一位數(shù)據(jù)科學(xué)家。

當(dāng)時人們連公司的名字都不會發(fā)音,如果不算正在接受心理咨詢的哥們兒,實(shí)習(xí)生,旁邊咖啡店里的咖啡師,團(tuán)隊(duì)只有大約七個人。我們的公司就在創(chuàng)始人在SOMA的公寓旁。工作環(huán)境也十分簡陋。

當(dāng)時大數(shù)據(jù)的狂熱還未開始,人們僅僅認(rèn)為數(shù)據(jù)會帶來一定的競爭優(yōu)勢。通常情況下人們會在公司成熟以后建立自己的數(shù)據(jù)團(tuán)隊(duì)。而我們的創(chuàng)始人非常具有前瞻性,邀請我作為數(shù)據(jù)科學(xué)家在公司成立初期就迫不及待地著手籌建自己的數(shù)據(jù)團(tuán)隊(duì),并通過數(shù)據(jù)驅(qū)動不斷學(xué)習(xí)和迭代產(chǎn)品。深深地被公司的文化和愿景吸引,在公司運(yùn)營數(shù)據(jù)少的可憐的情況下,我決定加入。

在硅谷流傳著一句非常羅曼蒂克的話,準(zhǔn)確決策和快速行動會讓任何小的創(chuàng)意成為大的變革。我對此深信不疑。當(dāng)時我們并不非常了解Airbnb的業(yè)務(wù),任何洞察都十分有創(chuàng)造力。數(shù)據(jù)架構(gòu)效率高,運(yùn)行穩(wěn)定并且可以做到數(shù)據(jù)的實(shí)時處理(我當(dāng)時用MySQL對我的產(chǎn)品數(shù)據(jù)進(jìn)行檢索。由于公司很小,每個人都能了解公司的各個決定。數(shù)據(jù)團(tuán)隊(duì)(我自己)著手處理一些單一維度的指標(biāo),方法論也相對初級。

五年之間我們經(jīng)歷了430倍的增長,事物也越來越復(fù)雜了。

我很開心我的團(tuán)隊(duì)能利用數(shù)據(jù)處理更復(fù)雜的問題。我們迅速將這些方法論與經(jīng)驗(yàn)規(guī)?;?,這些給我們帶來過增長奇跡的經(jīng)驗(yàn)幫助我們更自如的面對現(xiàn)在出現(xiàn)的問題。

隨著公司的成長,我們有必要將遇到的具體問題和概括性問題進(jìn)行配對,借此總結(jié)一套解決問題的方法論。

如何建立以數(shù)據(jù)科學(xué)為中心支撐公司不同部門業(yè)務(wù)的商業(yè)模式呢?

我們可以分成三塊來看:

首先,如何針對不同部門的業(yè)務(wù)特點(diǎn)建立不同部門的數(shù)據(jù)科學(xué),

其次,如何將數(shù)據(jù)科學(xué)應(yīng)用到商業(yè)決策,

最后,如何將數(shù)據(jù)科學(xué)規(guī)?;员阌谥С諥irbnb業(yè)務(wù)的方方面面。

我不敢說,Airbnb的方方面面是完美的,但是我們的工作一直保持著創(chuàng)業(yè)早期的激情。

一、數(shù)據(jù)不是數(shù)字,它代表客戶心聲

數(shù)據(jù)科學(xué)在Airbnb存在的基石是公司無處不在的數(shù)據(jù)文化,你會在公司的各個領(lǐng)域感受到數(shù)據(jù)的存在。我們對數(shù)據(jù)重要性的認(rèn)可是數(shù)據(jù)科學(xué)能在公司生根發(fā)芽的前提。

在過去數(shù)據(jù)并不受重視,僅僅被認(rèn)為是用來衡量問題的工具而已。給人的感覺是數(shù)據(jù)科學(xué)家就像(星際迷航中的)Spock博士,僅僅用來根據(jù)需求呈現(xiàn)統(tǒng)計(jì)數(shù)據(jù)結(jié)果而已。舉個例子,數(shù)據(jù)科學(xué)家(在過去)僅僅用來回答問題諸如我們在巴黎有多少房源?意大利最受歡迎的10大景點(diǎn)是哪些?

雖然回答簡單的數(shù)據(jù)問題和用數(shù)據(jù)對問題進(jìn)行衡量確實(shí)是數(shù)據(jù)科學(xué)家的工作之一,但是在Airbnb我們將數(shù)據(jù)賦予了更多人文色彩:數(shù)據(jù)是顧客的呼聲。一行數(shù)據(jù)代表一個動作或者一個事件。這些數(shù)據(jù)在大多數(shù)情況下反應(yīng)的是一名客戶的決定。如果你能復(fù)現(xiàn)導(dǎo)致決策產(chǎn)生的一系列事件,你就能從這個過程中有所收獲。這個過程本質(zhì)上是通過一種間接的方式來告訴我們客戶喜歡什么討厭什么。程序化的復(fù)現(xiàn)并且通過監(jiān)控獲取一組客戶行為以及客戶使用的功能,比獨(dú)立的單個的統(tǒng)計(jì)哪些功能重要哪些功能不重要好得多。

通過程序化復(fù)現(xiàn)收集客戶信息對于商業(yè)決策有重要意義,如果我們能很好的分析,那么對于社區(qū)增長,產(chǎn)品研發(fā),資源優(yōu)化的意義簡直就像我們發(fā)現(xiàn)了金礦。其實(shí)數(shù)據(jù)科學(xué)就把客戶的呼聲用數(shù)據(jù)的語言去表示,畢竟數(shù)據(jù)呈現(xiàn)商業(yè)問題更簡約,更方便于商業(yè)決策。

傾聽客戶的聲音是我們公司的核心文化,這個想法也得到了Airbnb所有人的認(rèn)同。自從創(chuàng)業(yè)初期,我們團(tuán)隊(duì)就市場與我們的社區(qū)成員互動,我們想更好的了解他們,設(shè)計(jì)出更好的產(chǎn)品來滿足他們的需求。我們現(xiàn)在依舊與他們互動,但是現(xiàn)在社區(qū)的規(guī)模已經(jīng)無法讓我們輕松地與他們互動了。

因此數(shù)據(jù)成了我們最好的伙伴。我們用統(tǒng)計(jì)學(xué)的方法,去了解每一位客戶,并將他們產(chǎn)生的數(shù)據(jù)匯集起來形成整體去挖掘趨勢。正是對這些趨勢的掌控,我們能夠更好的去推進(jìn)Airbnb的業(yè)務(wù)。隨著時間的變化,我們其他團(tuán)隊(duì)的伙伴也逐步了解了數(shù)據(jù)團(tuán)隊(duì)不是(星際迷航)的瓦肯人(信仰嚴(yán)謹(jǐn)?shù)倪壿嫼屯评?、去除情感的干擾聞名)。數(shù)據(jù)團(tuán)隊(duì)呈現(xiàn)著客戶的想法和呼聲。正是這個改變,為數(shù)據(jù)科學(xué)在Airbnb結(jié)構(gòu)與職能的改變鋪平了道路。

二、主動出擊與被動統(tǒng)計(jì)收集

一個優(yōu)秀的數(shù)據(jù)科學(xué)家可以讀懂客戶在使用我們產(chǎn)品時的心聲。當(dāng)然如果僅僅挖掘出問題而沒有人去行動的話,沒有任何意義。

我們認(rèn)為區(qū)分好與優(yōu)秀的重要標(biāo)準(zhǔn)是影響力-通過(數(shù)據(jù)分析得到的)洞察去影響決策并且確保決策產(chǎn)生真正的效果。這看起來是再平常不過的事兒了,但是它卻不會自然而然的發(fā)生。緊張的工作總讓數(shù)據(jù)科學(xué)家感到時間不夠用,往往顧此失彼,有時候他們就把問題束之高閣去看別的問題了。這并不是因?yàn)樗麄儾幌肴ニ伎歼@些問題,而是有時候他們感到并不值得:往往他們花費(fèi)巨大的人力和時間去理解數(shù)據(jù),保證統(tǒng)計(jì)方法的嚴(yán)謹(jǐn),確保統(tǒng)計(jì)結(jié)果解讀的準(zhǔn)確性。做這么多東西常常讓他們感到這不過是鎖碎的問題總結(jié),被動地回應(yīng)一些需求。他們感到這不會對公司未來產(chǎn)生什么影響。

但是如果決策者不能解讀這些數(shù)據(jù)洞察,那么他們肯定不會依據(jù)這些洞察采取行動。當(dāng)然如果沒有采取行動,我們所做的分析也就沒了意義。因此數(shù)據(jù)科學(xué)家和決策者應(yīng)該建立更加緊密的合作關(guān)系。在一些情況下,這是很自然的事兒。比如說當(dāng)我們開發(fā)數(shù)據(jù)項(xiàng)目。在Airbnb,多部門的合作機(jī)制也讓數(shù)據(jù)團(tuán)隊(duì)在整個組織架構(gòu)下有了新的呈現(xiàn)方式。

Airbnb數(shù)據(jù)科學(xué)家2

是否將數(shù)據(jù)科學(xué)團(tuán)隊(duì)當(dāng)作一個整體中心化,還是將團(tuán)隊(duì)分散到不同職能部門中?這樣的討論很多,但是我現(xiàn)在不想關(guān)注這一點(diǎn)。我想說的是在Airbnb, 我們將這兩種方式融合到了一起。

我們最開始是用的中心化方式,因?yàn)檫@樣所有團(tuán)隊(duì)成員可以近距離的相互學(xué)習(xí)并且大家有一致的經(jīng)驗(yàn),目標(biāo)和方法論。我們最終的目的是商業(yè)決定,而采取中心化模式有時候不能成功。其他團(tuán)隊(duì)有時候不清楚如何與我們互動,而數(shù)據(jù)科學(xué)團(tuán)隊(duì)有時因?yàn)樾畔⒌娜笔Ф恢雷约阂ソ鉀Q什么問題或者使問題解決方法具有實(shí)操性。慢慢地,數(shù)據(jù)團(tuán)隊(duì)成了資源,別的團(tuán)隊(duì)有需求時候才會有回應(yīng)。我們被動回應(yīng)統(tǒng)計(jì)需求而不是主動去發(fā)現(xiàn)新的機(jī)遇。

正因如此,我們我們對團(tuán)隊(duì)架構(gòu)進(jìn)行了改組。將中心化模型逐步改為混合式。我們依然遵從中心模型,所有的數(shù)據(jù)科學(xué)家在近日Airbnb初期隸屬數(shù)據(jù)團(tuán)隊(duì),然后我們將數(shù)據(jù)團(tuán)隊(duì)在劃分為幾個小型團(tuán)隊(duì),不同團(tuán)隊(duì)和工程,設(shè)計(jì),產(chǎn)品經(jīng)理,市場聯(lián)系各自建立緊密關(guān)系。

這種變革加速了數(shù)據(jù)文化在公司的傳播,同時也讓數(shù)據(jù)科學(xué)家從傳統(tǒng)的數(shù)據(jù)統(tǒng)計(jì)收集者轉(zhuǎn)向主動發(fā)現(xiàn)問題的合作者。正因?yàn)槲覀儾]有將數(shù)據(jù)團(tuán)隊(duì)全部分散到不同部門,我們可以很好的去觀察業(yè)務(wù)的方方面面,我們可以建立一套像神經(jīng)網(wǎng)絡(luò)式的結(jié)構(gòu)來幫助Airbnb不同部門彼此學(xué)習(xí)。

三、客戶驅(qū)動的決策

構(gòu)建一套數(shù)據(jù)職能體系可以讓公司充分感受到數(shù)據(jù)科學(xué)帶來的變化。當(dāng)然這只是部分而已。一旦分析決策能夠順利落地,我們下一個要考慮的問題是以什么樣的方法在什么樣的時間發(fā)揮社區(qū)的呼聲對于商業(yè)決策的影響力。

雖然數(shù)據(jù)團(tuán)隊(duì)和公司的方方面面建立了合作關(guān)系,在將數(shù)據(jù)與項(xiàng)目結(jié)合方面,我們依然受到很多觀點(diǎn)的挑戰(zhàn)。一些人僅僅是有興趣,只是想用數(shù)據(jù)著手了解他們遇到的問題。另一些人將數(shù)據(jù)看作一種過去事件的總結(jié),認(rèn)為這對未來規(guī)劃意義不大,不過有趣的是他們會更加關(guān)注衡量一些(他們所做出但)感性決定的效果。

這兩種觀點(diǎn)很公平。完全的數(shù)據(jù)驅(qū)動可以進(jìn)行局部優(yōu)化;然而全局優(yōu)化卻需要不斷的對整個系統(tǒng)進(jìn)行改革。那么數(shù)據(jù)在項(xiàng)目的何時開始發(fā)揮作用呢?

data-img1

我們認(rèn)為不同的數(shù)據(jù)科學(xué)元素能使以下四步?jīng)Q策過程受益:

  1. 我們首先要了解問題的背景,將過去的研究進(jìn)行匯總,以此來發(fā)現(xiàn)一些可能的機(jī)會。這是一個探索的過程,以此來抓住機(jī)會和提出一些假設(shè),這些假設(shè)能夠提供給我們一些落地的洞察。
  2. 我們將這些匯總轉(zhuǎn)化成計(jì)劃,這些計(jì)劃包括排優(yōu)我們想要利用的一些杠桿,形成一些假設(shè)去分析我們所做工作的影響力。預(yù)測分析的方法在這個階段會比較適合,因?yàn)樵谶@個階段我們必須做出一些決定:諸如我們應(yīng)該遵從何種路線,當(dāng)然我們希望我們所找的這條路線是會產(chǎn)生最大的影響力的那一條。
  3. 計(jì)劃完成后,我們需要設(shè)計(jì)對照實(shí)驗(yàn)來檢測我們的計(jì)劃。A/Btest很常見,但是因?yàn)锳irbnb可以整合公司所有業(yè)務(wù)資源,這樣我們不但可以將實(shí)驗(yàn)應(yīng)用的更加廣泛,(比如說以市場為基礎(chǔ)的運(yùn)營測試。)還可以在更加傳統(tǒng)的線上環(huán)境中進(jìn)行試驗(yàn)。
  4. 最后,我們衡量試驗(yàn)的結(jié)果,挖掘出我們的工作和工作所產(chǎn)生的影響力。

有時候決策過程非常簡單,比如我們設(shè)計(jì)一款手機(jī)應(yīng)用并不需要太多的前期總結(jié)。但是我們一直遵循這一套行事方法,我們發(fā)現(xiàn)每個人在Airbnb的影響力也就越來越大。畢竟我們這一套步驟使我們將目光集中在解決社區(qū)(客戶)大問題上。

四、數(shù)據(jù)科學(xué)的民主化

如果我們有足夠的數(shù)據(jù)科學(xué)家儲備,那上面的模型非常好。但是初創(chuàng)公司快速增長,做決策頻率也大幅增長,這種增長速度要遠(yuǎn)大于數(shù)據(jù)團(tuán)隊(duì)擴(kuò)增速度。

2011年Airbnb 迅速全球擴(kuò)張,這一點(diǎn)體現(xiàn)點(diǎn)更加明顯了。2011年初期,我們只是一個在三番的小公司,只有三個科學(xué)家(當(dāng)然我們團(tuán)隊(duì)十分高效)。

六個月以后,我們在全球新擴(kuò)張了10個新的辦公室。與此同時我們的的產(chǎn)品,市場營銷,客戶支持團(tuán)隊(duì)也擴(kuò)張十分迅速。而這也導(dǎo)致了數(shù)據(jù)科學(xué)團(tuán)隊(duì)與其他員工的合作效果大幅降低。

我們無法滿足社區(qū)成員的需求,與其他成員的交流也變的十分困難。我們需要找到一種方法去讓工作民主化,將個體交流擴(kuò)大為團(tuán)隊(duì)交流,公司交流,和社區(qū)交流。

GrowingIO用戶行為數(shù)據(jù)分析-airbnb2

通過對數(shù)據(jù)科技的不斷投資,我們讓民主決策成為現(xiàn)實(shí)。我來給大家分享幾個不同階段數(shù)據(jù)科學(xué)民主化的例子。

  • 如果數(shù)據(jù)科學(xué)家使用的工具更加強(qiáng)大迅速,那么(公司內(nèi)的)個人交流就會更有效。數(shù)據(jù)基礎(chǔ)層面的建設(shè)是重要的杠桿。這可以使我們通過更先進(jìn)更可靠的技術(shù)去處理迅猛增長的數(shù)據(jù)。讓ETL過程更穩(wěn)定也非常有價值,例如我們研發(fā)的Airflow系統(tǒng)。
  • 讓團(tuán)隊(duì)獲得更多的權(quán)利意味著給數(shù)據(jù)科學(xué)家們移除一些負(fù)擔(dān),比如說簡單的報(bào)表和基本的數(shù)據(jù)查探之類的工作就沒必要讓數(shù)據(jù)科學(xué)家們來做了,這樣他們就可以關(guān)注更重要的事情。看板是一個通常的解決問題的方法。我們也研發(fā)了更好的工具AirPal,一個讓人們檢索更穩(wěn)健,更直觀的數(shù)據(jù)倉庫。
  • 在小型團(tuán)隊(duì)中我們經(jīng)常做一些技能型工作,除了這些以外,我們以培養(yǎng)數(shù)據(jù)文化為己任。從大的方面來說,我們培養(yǎng)人們思考公司的數(shù)據(jù)生態(tài)系統(tǒng),具體一些我們對一些數(shù)據(jù)工具如AirPal 進(jìn)行培訓(xùn)。一旦人們能夠使用這些工具,他們就能由著自己的好奇心進(jìn)行探索數(shù)據(jù)了。和授權(quán)團(tuán)隊(duì)一樣,這也我們就不會陷入處理日常統(tǒng)計(jì)需求的煩惱之中了。
  • 數(shù)據(jù)科學(xué)規(guī)?;顝V泛的一個例子是讓房客和房主能夠直接了解彼此。通過我們的數(shù)據(jù)產(chǎn)品,將機(jī)器學(xué)習(xí)的模型應(yīng)用于解讀從一個社區(qū)成員發(fā)出的信號,然后借此去幫助其他成員。地點(diǎn)相關(guān)性模型也是一個例子,不過這個模型在公司其他團(tuán)隊(duì)對這個問題的探究越來也越常見。我們也已經(jīng)研發(fā)了新的工具去使用和理解這些模型。

規(guī)模化數(shù)據(jù)科學(xué)團(tuán)隊(duì)在一家極速增長的公司并不容易。如果公司每個人認(rèn)為數(shù)據(jù)科學(xué)是公司的基本部分而不是錦上添花的部分。那這就可以發(fā)生。

五、數(shù)據(jù)驅(qū)動的機(jī)遇和挑戰(zhàn)

這五年,我們學(xué)到了很多。我們提升使用數(shù)據(jù)去解決問題的能力。我們與決策者的交流也越來越好,于此同時我們還把數(shù)據(jù)分析的思維向全公司推廣。但是我們所做的這些工作到底有多成功呢?

衡量數(shù)據(jù)科學(xué)團(tuán)隊(duì)的作用和影響力并不是一件容易事兒,但是所有人都認(rèn)為技術(shù)背景的人和業(yè)務(wù)人員都應(yīng)該去用數(shù)據(jù)支持他們的決策。數(shù)據(jù)科學(xué)家團(tuán)隊(duì)在決策過程中起到了咨詢師的作用。現(xiàn)在我們和決策者共同決策,并不是被動的收集需求。

數(shù)據(jù)科學(xué)團(tuán)隊(duì)的另一個影響是我們深入挖掘我們所做工作的所帶來的影響。做這件事情其實(shí)比想象的還要復(fù)雜,因?yàn)锳irbnb的數(shù)據(jù)生態(tài)系統(tǒng)非常復(fù)雜。市場供需平衡會收到網(wǎng)絡(luò)影響,季節(jié)性很很強(qiáng)波動較大,交易周期也具有不確定性,時間范圍也很長。當(dāng)然這些挑戰(zhàn)兒讓我們更加興奮。雖然我們?nèi)〉昧瞬簧俪煽?,但是我們的潛力還沒有被挖掘出很多。

現(xiàn)在我們數(shù)據(jù)底層很穩(wěn)定,工具功能強(qiáng)大,而且數(shù)據(jù)倉庫構(gòu)建清晰可依靠。而且我們也有了更大目標(biāo),去解決更多問題。首先我們要將數(shù)據(jù)的批次分析提升為數(shù)據(jù)的實(shí)時分析。建立一套更強(qiáng)健有力的數(shù)據(jù)庫異常偵查系統(tǒng)。更深入地去了解網(wǎng)絡(luò)影響,增強(qiáng)我們對房東房客配比和個性化需求的理解。

當(dāng)然這些想法只是開始。我們知道數(shù)據(jù)是客戶的心聲??蛻魰⑽覀冎敢剿麄兿胍竭_(dá)的地方。

 

本文由GrowingIO商務(wù)分析師檀潤洋繹自Riley Newman 的《Airbnb,Data Science Belongs Everywhere: Insights from Five Years of Hypergrowth》,原文鏈接?http://nerds.airbnb.com/scaling-data-science/

本文由 @檀潤洋 翻譯發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!