數(shù)據(jù)分析的核心:建模

5 評論 22734 瀏覽 156 收藏 10 分鐘

為什么我們要系統(tǒng)的研究建模過程?我們?nèi)U展一個學科邊界的兩條路徑,去研究底層概念去擴展應用領域,我們今天從底層入手。

為什么我們要通過模型認識世界?

為什么我們不直接認識世界,而是要通過模型?

生命有限,時間有限,我們不可能面面俱到的去考察世界的方方面面,我們必然需要作出選擇,去找到關鍵,模型就是一系列積累了前人的認識和描述世界智慧的經(jīng)驗.。生活中我們,都在自覺或者不自覺的使用模型。

舉個栗子:我們馬上要期末了,經(jīng)過認真的學習,我們考了80分,自我感覺不錯啊。都80分了,應該算是個優(yōu)了。但是實際上可能存在這樣一些情況:滿分是200分……全班平均分90分……

這個過程中,我們無形之中使用了一個模型叫做比較:量綱一致,有基準的情況下,a>b才有意義。 圍繞這個簡單的模型,各個學科發(fā)展出了龐雜的應用,比如:經(jīng)濟學中的成本/金融學中的理想收益基準等等。

為什么我們要系統(tǒng)的研究建模過程?我們?nèi)U展一個學科邊界的倆條路徑,去研究底層概念去擴展應用領域。我們今天從底層入手。

1. 模型的概念

在日常話語體系中,我們往往存在這樣的認知:建模=數(shù)學=科學=高大上=和我無關。

為了打破大家對于模型先天的一些偏見,我們先從本質(zhì)上看模型到底是什么?模型其實就是抽象空間的一套演繹體系。

我們先看一下什么是抽象空間?

抽象空間是相對于現(xiàn)實空間而言的,現(xiàn)實中我們面對的世界往往是無窮無盡的,世界上有無窮的對象,每個對象有無窮的維度等著我們?nèi)フJ知,面對這樣的世界,我們是沒有辦法直接去認識,我們需要主觀的先建立一套選擇標準,再選擇一些特定對象,選擇一些特定的維度,特定的過程,這個選擇構(gòu)成的集合就叫做抽象空間。

有些抽象空間是雜亂無章,互相矛盾的,比如:我們大多數(shù)普通人的思維世界其實就處在這樣一個狀態(tài),大多數(shù)時候,我們不知道自己的信仰是什么,不知道自己世界觀是什么,也不知道自己的價值觀是什么,個人選擇受環(huán)境的干擾特別大。

然而,還有一類抽象空間,里面的假設非常堅固,或者反映了人類社會的普遍訴求,比如:公平/正義/自由等,或者反映了科學共同體的基本共識,比如:能量守恒;或者是完全建構(gòu)在抽象世界里的描述,比如:倆點之間直線最短。演繹論證非常嚴密,這一類抽象空間構(gòu)成了人類智慧的結(jié)晶。

我們這里的模型,特指后者,一些凝聚了人類發(fā)展過程中智慧結(jié)晶的抽象空間描述。

知道了什么是模型,我們再來看看什么是建模過程? 建模的本質(zhì)其實是 現(xiàn)實世界和抽象空間的映射。

在數(shù)學里,映射是個術語,指兩個元素的集之間元素相互“對應”的關系。從這個定義里就可以看出,建模其實不存在絕對的對錯,建模的方式,因為映射空間的不同,也可能存在千萬種,但是我們?nèi)绾芜x擇建模方式呢?畢竟我們不能挨個建一遍吧?

我們評價一個模型的好壞可以從倆方面展開:

  1. 模型是否反映了對象的重要特征;
  2. 模型和現(xiàn)實的擬合情況(解釋/預測/復現(xiàn))。

最后需要指出的是,任何模型都是一部“有色眼鏡”,它在幫我們看清一些東西的時候,同時也遮蔽了我們對另外一些對象的觀察。

所有模型都是錯的,但是有些模型是有用的。

2. 數(shù)學建模的過程

數(shù)據(jù)分析的建模過程中,大多數(shù)時候,我們還是選擇數(shù)學空間作為我們的映射對象。數(shù)學建模是應用學科的核心內(nèi)容,任何一門科學都是在數(shù)學的框架下表達自己解決問題的思想和方法,并和別的專業(yè)或者方向分享這些思想和方法。任何一門學科,只有當其使用數(shù)學時,才是好的精確的學科。

分析實際問題中的各種因素,使用變量表示;分析這些變量之間的關系,哪些是相互依存的,哪些是獨立的,他們具有什么樣的關系;根據(jù)實際問題選用合適的數(shù)學框架(典型的有優(yōu)化問題,配置問題等等),并具體的應用問題在這個數(shù)學框架下表出;選用合適的算法求解數(shù)學框架下表出的問題; 使用計算結(jié)果解釋實際問題,并且分析結(jié)果。

(1)模型假設

根據(jù)對象的特征和建模目的,對問題進行必要的、合理的簡化,用精確的語言作出假設,是建模至關重要的一步。如果對問題的所有因素一概考慮,無疑是一種有勇氣但方法欠佳的行為。

所以高超的建模者能充分發(fā)揮想象力、洞察力和判斷力,善于辨別主次,而且為了使處理方法簡單,應盡量使問題線性化、均勻化。

(2)模型選擇

根據(jù)所作的假設分析對象的因果關系,利用對象的內(nèi)在規(guī)律和適當?shù)臄?shù)學工具,構(gòu)造各個量間的等式關系或其它數(shù)學結(jié)構(gòu)。這時,我們便會進入一個廣闊的應用數(shù)學天地,這里在高數(shù)、概率老人的膝下,有許多可愛的孩子們,他們是圖論、排隊論、線性規(guī)劃、對策論等許多許多,真是泱泱大國,別有洞天。

不過我們應當牢記,建立數(shù)學模型是為了讓更多的人明了并能加以應用,因此工具愈簡單愈有價值。

(3)模型求解

可以采用解方程、畫圖形、證明定理、邏輯運算、數(shù)值運算等各種傳統(tǒng)的和近代的數(shù)學方法,特別是計算機技術。一道實際問題的解決往往需要紛繁的計算,許多時候還得將系統(tǒng)運行情況用計算機模擬出來,因此編程和熟悉數(shù)學軟件包能力便舉足輕重。

(4)模型分析

對模型解答進行數(shù)學上的分析,“橫看成嶺側(cè)成峰,遠近高低各不同”。能否對模型結(jié)果作出細致精當?shù)姆治?,決定了你的模型能否達到更高的檔次。還要記住,不論那種情況都需進行誤差分析,數(shù)據(jù)穩(wěn)定性分析。

(5)模型應用

把數(shù)學上分析的結(jié)果翻譯回到現(xiàn)實問題,并用實際的現(xiàn)象、數(shù)據(jù)與之比較,檢驗模型的合理性和適用性。

(6)模型評價

取決于問題的性質(zhì)和建模的目的。

3. 模型空間概述

模型的分類標準,也可以表達成模型有幾方面的特征.這里做一個簡單的列舉,下次會結(jié)合具體案例對每類模型做一個簡單綜述:

總結(jié)

所有模型都是錯的,但是有些模型是有用的。

 

作者:小祁愛數(shù)據(jù),公眾號:小祁同學的成長故事

本文由 @小祁愛數(shù)據(jù) 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請關注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 數(shù)據(jù)建模其實就是找到能體現(xiàn)現(xiàn)實意義(現(xiàn)實空間)的數(shù)據(jù)指標(數(shù)學空間)。比如我們用子頁面的瀏覽量÷父頁面的瀏覽量來表示該子頁面在父頁面上的轉(zhuǎn)化程度,其實這就是一次建模,只有建模,數(shù)據(jù)指標才有現(xiàn)實意義,只有思考明白了這一點,才能做數(shù)據(jù)分析,否則數(shù)據(jù)分析就是紙上談兵毫無意義的。作者講的其實是非常底層的邏輯,覺得看不懂是因為沒有花時間認真思考和實踐這一塊領域。

    來自浙江 回復
  2. 完全看不懂呀。

    回復
    1. ?1

      回復
    2. 說的很專業(yè),但是看不懂,就和專家一樣講了半天很高大上的樣子,臺下沒人看懂

      回復
  3. 回復