硬核科普:從貝葉斯定理到大語言模型,智能寫作創(chuàng)業(yè)者的探索之路

2 評論 3617 瀏覽 15 收藏 22 分鐘

最近這段時間,大語言模型(LLM)火了起來,而這一現(xiàn)象和趨勢也給許多AI創(chuàng)業(yè)者或智能產(chǎn)品的從業(yè)者們帶來了更多思考。比如本文作者便曾經(jīng)在幾年前嘗試過智能寫作產(chǎn)品研發(fā),在大語言模型火了之后,他對語言模型、對先前的創(chuàng)業(yè)項目又有了新的思考,一起來看。

2019年,我們在做智能寫作的時候,面臨的最大的挑戰(zhàn)就是AI給的數(shù)據(jù)效果和預期偏差太遠。特別是做擴寫的時候,發(fā)現(xiàn)生成的文字很容易跑偏。

硬核科普:從貝葉斯定理到大語言模型,智能寫作創(chuàng)業(yè)者的探索之路

當時,我們做了很多算法和模型研究。幾乎爬取了全網(wǎng)的自媒體文章,然后訓練一批模型,問題依然很多。因為中文博大精深各種修辭手法和陰陽怪氣,再加上隨著時代的發(fā)展,特殊詞的用法也如雨后春筍一般涌現(xiàn),如何讓AI能跟上人類語言的理解能力是個讓人頭痛的問題。

當時我們也訓練了不少語言模型,發(fā)現(xiàn)它根本無法弄懂詞的含義,無法理解“心靈雞湯”和“雞湯”是完全兩碼事,寫出了“老鼠愛喝心靈雞湯”的令人啼笑皆非的錯誤;另外,很容易跑偏,從“心靈雞湯”跑偏到“老鼠喝湯”再跑偏到“動物世界”,一口氣擴寫出幾百個字,能跑偏到十萬八千里,讓人完全摸不著頭腦。

在試了很多方案之后,我們得到了一個結論:機器無法真正理解人類的語言。然后,我們悄悄把“擴寫”放到了“實驗室”的板塊,放棄了文本生成的持續(xù)研發(fā)。

AI生成文字這條路到底通不通?到2023年,在沒有體驗ChatGPT之前,我還是持保留態(tài)度,但是體驗之后,我忍不住驚呼:“這三四年的時間到底發(fā)生了什么?”

我和大家一樣,重新補起了功課……

一、什么是語言模型?

語言模型(Language Model)是一種機器學習算法,它可以根據(jù)給定文本來預測下一個詞語或字符的出現(xiàn)的概率。

語言模型通過大量的文本數(shù)據(jù)來學習語言的統(tǒng)計特征,進而生成具有相似統(tǒng)計特征的新文本。其核心目標是建立一個統(tǒng)計模型,用來估計文本序列中每個詞語或字符出現(xiàn)的概率,從而實現(xiàn)語言生成、語言理解等自然語言處理任務。

比如,我們可以給一句話讓ChatGPT做擴寫:

我今天吃了一個___

它可能會擴寫出“蘋果”,“饅頭”、“面包”、“漢堡”。根據(jù)大量的文本統(tǒng)計,這些詞出現(xiàn)頻率大致如下圖:

硬核科普:從貝葉斯定理到大語言模型,智能寫作創(chuàng)業(yè)者的探索之路

蘋果為0.07,饅頭為0.035,面包為0.025,漢堡為0.022。

因為“蘋果”出現(xiàn)得比較多,ChatGPT大概率會寫出“今天我吃了一個蘋果”。但它不太可能預測出“我今天吃了一個火車”,因為“火車”不是食物,雖然語法通順。但喂給GPT訓練的語料里面基本沒有人會這樣造句。

正是因為GPT在訓練過程中吸收了大量的人類語言數(shù)據(jù),所以我們會覺得它的回答符合我們的邏輯。

人類區(qū)別于普通動物的最主要智慧特征可能就是強大的語言能力。語言不僅僅只是一種溝通工具,還包含著人類的思考邏輯和對世界的認知。

不管AI是否有真正的智慧,我相信只要語言模型的預測能力做到極致,就能夠讓人類信以為真。

二、概率從哪里來?

那么,語言模型是如何預測概率的呢?這要從200多年前的貝葉斯學派說起。

貝葉斯定理,由英國數(shù)學家貝葉斯 ( Thomas Bayes 1702-1761 ) 發(fā)明的。其主要思想就是,通過已知的知識來預測接下來要發(fā)生事情的概率。即我們通過以往的經(jīng)驗、分析或實驗,可以推斷出一些事件發(fā)生的概率。為了更好的理解,我們舉個預測地震的例子。

假設有人收集了大量歷史數(shù)據(jù),我們可以發(fā)現(xiàn)地震和自然界的某些異?,F(xiàn)象有某種關系,如雞飛狗跳、老鼠上街、青蛙搬家、湖水干涸等現(xiàn)象,我們可以根據(jù)歷史的數(shù)據(jù)事先計算好這些現(xiàn)象出現(xiàn)的概率,叫做先驗概率。地震的概率可以寫作P(地震),異常現(xiàn)象的概率可以寫為P(異?,F(xiàn)象),例如,老鼠上街的概率可以寫作P(老鼠上街)。

正所謂:一切偶然背后都會有個必然。根據(jù)歷史數(shù)據(jù),我們可以算出地震和異常現(xiàn)象的概率關系,我們稱之為條件概率。例如,在某個異?,F(xiàn)象發(fā)生后出現(xiàn)地震的概率,可以寫作P(地震|異?,F(xiàn)象),先決條件寫在|后面。如果是已知地震再計算異常現(xiàn)象的概率,也可以反過來P(異常現(xiàn)象|地震)。

有了這些數(shù)據(jù),我們就可以根據(jù)觀測,預測還未發(fā)生的地震了。通過觀測一些現(xiàn)象來預測的還未發(fā)生的概率,這叫做后驗概率,我們記為P(新地震|異?,F(xiàn)象)。

例如,P(新地震|雞飛狗跳)表示的是我們觀測到雞飛狗跳,預測可能發(fā)生地震的概率。這時我們可以用到貝葉斯公式。

后驗概率=(先驗概率*條件概率)/證據(jù)概率

硬核科普:從貝葉斯定理到大語言模型,智能寫作創(chuàng)業(yè)者的探索之路

我們把預測地震的例子遷移回語言模型。假設要預測在給定“吃”這個詞之后,下一個詞是“蘋果”的概率,即P(蘋果|吃)。

首先,語言模型學習了大量的文本數(shù)據(jù),獲得了大量的先驗知識,已經(jīng)知道了P(吃|蘋果)、P(蘋果)和P(吃)這三個概率值。其中,P(吃|蘋果)表示在給定“蘋果”這個詞之后,出現(xiàn)“吃”的概率;P(蘋果)表示“蘋果”這個詞出現(xiàn)的概率;P(吃)表示“吃”這個詞出現(xiàn)的概率。

然后,我們可以根據(jù)貝葉斯定理,計算后驗概率P(蘋果|吃):

硬核科普:從貝葉斯定理到大語言模型,智能寫作創(chuàng)業(yè)者的探索之路

我們還可以通過輸入法的聯(lián)想詞模擬整個句子的生成過程。

硬核科普:從貝葉斯定理到大語言模型,智能寫作創(chuàng)業(yè)者的探索之路

我們以“今天吃”這個詞作為輸入,語言模型會繼續(xù)根據(jù)統(tǒng)計數(shù)據(jù),計算出在“今天吃”這個詞之后,各個詞出現(xiàn)的概率。例如,它可能計算出“飯”這個詞出現(xiàn)的概率為0.4,“了”這個詞出現(xiàn)的概率為0.35,“的”這個詞出現(xiàn)的概率為0.33……我們結合語境選擇“了”,然后輸入法刷新聯(lián)想詞,然后我們選擇“一個”。依次重復這個過程,最終得到了“今天吃了一個蘋果”的句子。

大家可能也注意到了它的問題。輸入法的語言模型,只能預測上一個詞和下一個詞的關系,如果沒有人類的主動選擇就很容易跑偏,這是一個長文本預測的問題。

在2019年,我們遇到了問題是一樣的。而且我們在實際應用中我們會使用更加復雜的模型,我們會用到一些RNN等深度學習的技術,讓語言模型可以預測更長一點的句子。但是針對長文本依然無法解決跑偏的問題。

當時的解決方案就是一句一句的擴,讓用戶隨時可以糾正偏差。但問題是這種擴寫的意義又在哪里呢?讓我對AI文本生成的信仰頓時崩塌。

三、什么是大語言模型(LLM)?

2023年,讓整個人類最為振奮的AI技術就是ChatGPT。“大語言模型(Large Language Model)”這個詞也隨之映入人們的眼簾。ChatGPT讓人覺得驚艷之處,能夠結合上下文,像人一樣有邏輯性地回答問題,就算生成超長的文本也不會跑偏。到底什么是大語言模型?

大語言模型與普通語言模型相比,大語言模型的一個顯著區(qū)別在于其規(guī)模。大語言模型通常具有大量的參數(shù),并且在訓練過程中使用了巨量的文本數(shù)據(jù)。大型語言模型的參數(shù)規(guī)模通常與效果成正比,能夠更好地理解和生成自然語言文本,更好地完成各種自然語言處理任務,如寫作、翻譯、問答等。

GPT優(yōu)秀之處是做了前無古人的突破性的嘗試,使用了巨量的參數(shù)和預訓練數(shù)據(jù)。GPT-3擁有1750億個參數(shù),使用了45TB的文本數(shù)據(jù)進行訓練。訓練數(shù)據(jù)和參數(shù)量都遠遠超過傳統(tǒng)的語言模型。

1. 大規(guī)模的參數(shù)有什么用?

我們要從詞嵌入(Word Embedding)說起,為幫助語言模型更好地理解每個詞的特征和含義, 我們需要使用大量的參數(shù)來存儲和處理信息。我們會將這些詞嵌入一個高維的向量空間里面,像GPT-3的向量空間的維數(shù)就有12288,這意味著GPT-3可以使用12288個維度來充分理解某個詞。對于很多單詞的理解可能比人類都要透徹。

語言模型還可以通過詞向量空間中的位置的遠近來理解詞與詞之間的關系。

假設我們的詞向量空間有三個維度:顏色、形狀和類別。我們有三個單詞:“蘋果”、“橘子”、“手機”,應該如何嵌入到向量空間呢?

“蘋果”和“橘子”都屬于水果類別,因此它們在類別維度上的值相同都是用數(shù)字“1”表示;但“蘋果”的顏色是紅色用數(shù)字“1”表示,而“橘子”的顏色是橙色用數(shù)字“2”表示;至于形狀維度,由于“蘋果”和“橘子”的形狀都是圓形,都用數(shù)字“1”表示,于是有下面這個數(shù)值。

硬核科普:從貝葉斯定理到大語言模型,智能寫作創(chuàng)業(yè)者的探索之路

“手機”屬于電子產(chǎn)品類別,數(shù)值用“3”表示;手機的形狀是方的,數(shù)值用“2”表示;顏色是多色的,數(shù)值用“8”來表示。

硬核科普:從貝葉斯定理到大語言模型,智能寫作創(chuàng)業(yè)者的探索之路

他們之間的關系可以一目了然地展示在向量空間的關系中,如下圖:

硬核科普:從貝葉斯定理到大語言模型,智能寫作創(chuàng)業(yè)者的探索之路

我們可以看到語義相似的單詞在向量空間中彼此靠近。當GPT在生成文字的時候,它可以根據(jù)向量空間知道“蘋果”和“橘子”是一類水果,在“吃”的語境中可以相互替換。

硬核科普:從貝葉斯定理到大語言模型,智能寫作創(chuàng)業(yè)者的探索之路

但是這也有新的問題,“蘋果”也有可能是指生產(chǎn)手機的“蘋果公司”, GPT怎么能知道“蘋果”是否特指“蘋果公司”呢,根據(jù)不同的語境推理出不同含義的“蘋果”呢?

2019年,如何結合語境,讓語言模型能夠準確地理解詞的含義,這在當時也是個巨大的難題。我們當時想的策略也相對簡單粗暴,就是通過命名實體技術強制將它們標記為不同的實體名詞,例如,“蘋果手機”類別為電子產(chǎn)品,“蘋果公司”為企業(yè)。但是遇到的問題是,我們沒有辦法列舉完所有的命名實體,需要不斷擴充新詞庫;另外在很多語境中“蘋果”就能代表“蘋果公司”和“蘋果手機”,沒辦法根本解決這個問題。

GPT-3高明之處就是使用上下文相關的詞嵌入方法和自注意力機制來解決這個問題。它的詞嵌入方法考慮了單詞在給定文本中使用的上下文,而自注意力機制則允許模型在生成文本時考慮前面的所有的單詞。最終,讓機器能更好地理解語境 ,解決詞的多義性和歧義性問題。

2. 什么是注意力機制?

GPT的Transformer模型通過使用自注意力機制(Self-attention mechanism),能夠讓模型在處理每個單詞時都能考慮到文本中所有單詞的信息,從而更好地捕捉文本中的長距離依賴關系,解決了長文本的跑偏的問題。這在傳統(tǒng)的模型中是無法做到的。

注意力機制的靈活性來自于它的“軟權重”特性,即這種權重是可以在運行時改變的,可以根據(jù)上下文來推斷出單詞的含義,來達到更好的預測效果。

舉個例子,假設我們有一個句子:“我喜歡吃蘋果,但我不喜歡蘋果手機?!痹谶@個句子中,“蘋果”這個詞出現(xiàn)了兩次,第一個“蘋果”是指一種水果,而第二個“蘋果”是指一種手機品牌。

如果是沒有注意力機制的模型來處理這個句子,那么模型可能會將兩次出現(xiàn)的“蘋果”都當做水果來處理。但對于GPT來說就不一樣了,它能夠根據(jù)上下文來推斷出每次出現(xiàn)的“蘋果”的含義。

這主要歸功于GPT包含的巨量參數(shù)中不僅僅包含了詞匯的意義,還包含了詞在句子中結構和語法、語言風格、語境信息等等。

注意力機制可以通過計算每個詞的相似度來實現(xiàn)注意力權重的計算。當它處理第一個“蘋果”時,會注意到前面有一個權重較高的“吃”字,因此會推斷出這里的“蘋果”指的是一種水果;而當模型處理第二個“蘋果”時,它會注意到后面有一個權重較高的“手機”,因此會推斷出這里的“蘋果”指的是一種手機品牌。

我們可以簡單模擬一下這個注意力權重的計算過程。

假設我們有個三維的詞向量空間,我們先把“我”、“喜歡”、“吃”、“蘋果”這4個詞嵌入到這個空間里面:

硬核科普:從貝葉斯定理到大語言模型,智能寫作創(chuàng)業(yè)者的探索之路

如果繪制成圖,他們在向量空間中的關系一目了然。如下圖,兩個詞越是接近,關系就越緊密。

硬核科普:從貝葉斯定理到大語言模型,智能寫作創(chuàng)業(yè)者的探索之路

語言模型可以用數(shù)學方法來分別計算“蘋果”與“我”“喜歡”“吃”三個詞的權重分數(shù),我們可以通過向量的點積計算方式模擬計算一下,值越大代表的是向量的相關性越大:

硬核科普:從貝葉斯定理到大語言模型,智能寫作創(chuàng)業(yè)者的探索之路

通過計算我們發(fā)現(xiàn)“吃”的相似度最大為2.66,那就說明“吃”這個詞相對于“蘋果”應該有更高的注意權重。

或許看到這里,你已經(jīng)覺得自己消耗了不少的腦細胞。但似乎我們也能夠理解GPT的工作量是有多么的大。因為要不斷地動態(tài)的生成和預測下個詞,需要消耗大量的算力。沒辦法一步到位,所以它只能是一個字一個字地給你呈現(xiàn)出來。

算力也是我們在2019年遇到的難題,因為訓練模型的沉沒成本很高。稍微復雜一點的模型訓練可能需要幾天的時間,但是你也沒有辦法保證預期結果。而且,在模型訓練好之后,用戶還需要長時間的等待計算結果,導致體驗非常糟糕。對于一個爭分奪秒的創(chuàng)業(yè)團隊來說,顯然有些不切實際。

所以我們當時思路是盡可能把模型做多做小,按照不同的文章分類進行訓練,想通過這種方式平衡時間和效果,但效果依然不盡人意。從今天的結果來看,沒有通用的大語言模型作為基座,把模型做小做細基本就是一條不歸路。最終,我們放棄了文本生成算法的持續(xù)研發(fā)。

GPT的成功之處,不僅僅是技術的成功,也是在商業(yè)上面的成功。有了微軟的算力加持,可以更好的保證模型訓練和服務體驗,才能在普通的用戶人群獲得巨大的反響。

四、尾聲

今天,在ChatGPT閃耀的光環(huán)之下,我們看到OpenAI的CEO 山姆·奧特曼(Sam Altman) 風光無限,我在短視頻平臺經(jīng)常能刷到他的精彩演講語錄,我也總是希望能夠從他的成功經(jīng)歷上學到點什么。

如果有一天,我拿著2023年的大語言模型的論文,穿越回了2019年,重新開始智能寫作的項目,我會做得更好嗎?其實,我依然覺得很難,因為創(chuàng)業(yè)需要“天時地利人和”。

先不提OpenAI所在的土壤對于創(chuàng)新極其的開放,它吸納了全球最頂尖的人才,并獲得了資本的鼎力支持。光是能夠看清未來的方向,并且能夠堅定不移地走下去,也是我們大多數(shù)創(chuàng)業(yè)團隊無法企及的高度。

對于一個創(chuàng)業(yè)者來說,看見未來很重要,但認清自己也很重要??匆娢磥?,你才能堅定不移地走下去;認清自己,你才能力所能及地把事情做得更好。在沒有能力之前,需要先學會成長;在機遇沒有到來之前,需要先學會等待;在沒有成功之前,也要學會選擇堅持。

現(xiàn)在ChatGPT的熱度之下,又有一些朋友重新投入到AI創(chuàng)業(yè)的大潮中。雷軍說過:“站在風口,豬也能被吹上天?!钡秋L很大,浪也會很急,挑戰(zhàn)也會很多。希望各位創(chuàng)業(yè)者能夠一帆風順。

專欄作家

PM熊叔,微信公眾號:PM熊叔,人人都是產(chǎn)品經(jīng)理專欄作家。教育類產(chǎn)品產(chǎn)品經(jīng)理出身,學過設計,做過開發(fā),做過運營的產(chǎn)品經(jīng)理。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉載

題圖來自 Unsplash,基于 CC0 協(xié)議

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務。

更多精彩內(nèi)容,請關注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. MARK

    來自北京 回復
  2. 通俗易懂

    來自北京 回復