自回歸模型VS擴散型模型 住手,你們不要再打了啦

3 評論 536 瀏覽 1 收藏 18 分鐘

在人工智能領(lǐng)域,自回歸模型和擴散模型分別在文字和圖像生成任務(wù)中占據(jù)主導(dǎo)地位。然而,隨著技術(shù)的發(fā)展,兩者之間的邊界似乎開始模糊。本文將深入探討這兩種模型的核心差異,分析它們?yōu)楹芜m用于不同的信號類型(離散信號與連續(xù)信號),并探討如何通過技術(shù)路徑實現(xiàn)自回歸模型在圖像生成任務(wù)中的應(yīng)用。

為何文字與圖像生成模型分道揚鑣?

你是否會有這樣的疑問,為什么主流的文字模型用的都是自回歸模型,而主流的圖片視頻生成模型卻偏愛擴散模型呢?

最近的一些項目也讓這個事情慢慢地變得微妙了起來啊。

比如說 Gemini 的這樣的一個自回歸模型,由于良好的圖片一致性驚艷了整個圈子。

而前段時間擴散大語言模型項目 Mercury 也因為它超快的這種文本生成速度引發(fā)了大量的關(guān)注。

難道說模型的這個邊界正在被打破嗎?

自回歸模型和擴散模型,它們之間到底有著什么樣的區(qū)別呢?

核心差異:離散信號與連續(xù)信號的本質(zhì)

其實這個問題的核心是要追溯到為什么最早人們開始選擇這個技術(shù)路線的時候,用自回歸模型去生成文字,用擴散模型去生成圖片。

這背后其實隱藏的是文字和圖像自身的最根本的區(qū)別,也就是離散信號和連續(xù)信號。

文字是一種離散信號,有一系列明確的、有限的這種符號構(gòu)成。

就比如說我們的語言中有龜和兔這兩個明確的符號概念,但是你不可能在龜和兔之間找到一個中間狀態(tài),就是我們沒有辦法定義一個既是龜又是兔的中間符號,這其實體現(xiàn)出來的就是文字本質(zhì)上的離散性。

那圖像就是一種連續(xù)的信號,它是平滑無限的啊。

舉個簡單例子,就是你觀察這個紅色和黃色之間,其實可以找出無數(shù)個不同的橙色啊。

這些中間狀態(tài)都是連續(xù)存在的,所以它不是有限的離散符號。

那更進一步,其實文字本身就是人發(fā)明的,對這個連續(xù)世界的一種抽象,或者說是采樣。

就比如說我們看到不同品種的龜,對吧

無論是中華草龜還是豬鼻龜,它們都被我們統(tǒng)一成了一個離散的概念龜。

并且用龜這個字這個符號來進行一個表示,所以正是由于有這樣的差異,決定了早期的生成任務(wù)會選擇不同的模型方向。

生成機制對比:從人類行為到模型邏輯的仿生學(xué)映射

自回歸模型:契合人類語言生成的逐字預(yù)測機制

那在這個地方其實我們首先要去了解人是怎么樣去生成文字的,就是人在說話的時候是一個什么樣的過程。

那人說話時是一個逐字逐句、循序漸進的過程,就是我講一個字或者說表達一個字的時候,其實都是根據(jù)前面說的話,是吧?

舉個例子就是我現(xiàn)在想喝,你要預(yù)測下一個這個字是什么的時候,你可能會說我想喝奶茶,我想喝可樂,但是大概率不會說我想喝自行車,我想喝混凝土,就是語言,它有一種天然的基于上下文的推進邏輯。

那自回規(guī)模型的工作機制其實和人說話的這個過程高度相似,自回規(guī)模型就是根據(jù)已生成的離散符號去預(yù)測下一個符號的概率,在每一步的這種預(yù)測之中,是吧?。

我就從這個有限的符號集里面去判斷哪一個符號的概率最大,你可以理解成本質(zhì)上它是一個分類任務(wù)。

所以自回規(guī)模型和語言生成的這種內(nèi)在習(xí)慣是相似的,導(dǎo)致它非常適用于文字生成的任務(wù)相對應(yīng)的。

擴散模型:模擬圖像繪制的漸進細(xì)化與特征概率分布

相對應(yīng)的,我們要去了解人是怎么畫畫的。

假設(shè)你想畫一只長頸鹿,你可能會先從一個簡單的草圖開始,然后逐步添加細(xì)節(jié),使它越來越接近你腦海中的長頸鹿形象。

我們腦海中對「長頸鹿」這個概念有一些典型特征,例如長長的脖子和身上獨特的斑紋。因此,當(dāng)我們繪制長頸鹿時,就會有意識地加入這些特征,因為它們是代表「長頸鹿」這一概念的典型標(biāo)志。

然后我們從數(shù)學(xué)的角度去看,像長長的脖子、身上獨特的斑紋這樣的特征組合。

在我們?nèi)ピO(shè)想的這個長頸鹿的圖案,或者說我們看到的長頸鹿圖案里面出現(xiàn)的概率是很高的,所以這塊體現(xiàn)出來就是長頸鹿這個概念背后其實都是特征的概率分布特征的這樣的一種集合。

所以當(dāng)我們用擴散模型去生成圖片的時候,在做的一件事情就是試圖讓圖像中的這些特征盡可能地向我們想要表達的那個概念的高概率區(qū)域去靠攏。

比如說在連續(xù)的這個空間中,我不斷地把這個脖子畫長,畫的像長脖子,不斷地去增加這個斑紋的質(zhì)地,讓它看起來像是一個長頸鹿斑紋,那么最終的圖像由于我在不斷地去把這些特征給它進行一個強化,就會導(dǎo)致我們畫出來的長頸鹿就真的很像一個真實的長頸鹿。

所以擴散模型就是在找一種概率分布,找的是從模糊草圖到細(xì)節(jié)逐漸變清晰的這樣的一個過程,和人們?nèi)ダL畫的這種思維方式是吻合的,所以擴散模型就天然的適合圖像生成的任務(wù)。

但是這個還要再多說一句,就是當(dāng)我們用擴散模型生成長頸鹿的圖像的時候,雖然我們有長脖子、獨特斑紋這種明顯的典型特征的預(yù)設(shè),但由于圖像信號本身是連續(xù)的信號,所以我們截取到的這個特征自然也是連續(xù)的,這種連續(xù)的特征導(dǎo)致我們很難明確地去找出哪些維度是具體對應(yīng)這個長脖子,哪些維度是具體對應(yīng)這個獨特斑紋,因為他們這些特征之間其實是沒有明確的邊界的,所以擴散模型生成圖的過程算是比較直觀的。

但是你很難地具體地去判斷,誒,每一個特征或者說這多個維度特征的組合表達的到底是什么樣的一種含義?

所以擴散模型在學(xué)習(xí)這些特征的時候,其實學(xué)到就是一種整體的、抽象的、無法用語言表述的感覺,其實就跟人在第一次看到一個非常宏偉的建筑的時候,你不會具體去分析這個畫面里面的哪些細(xì)節(jié)讓它變得宏偉,像你不會說這個設(shè)計語言是什么,其實很多時候我們就是直觀地感受到這個宏偉的這樣的一個整體的美感,或者說是一種直覺,畫面之所以能夠有效地傳遞這種直覺或者說是美的這樣的一種概念。

是因為審美本身就是難以表述的,難以用明確的這種邊界去進行一個定義,它依靠的就是大量的微妙特征,它們相互融合、相互作用,然后讓人們感受到這是一種美的概念,所以這個是為什么擴散模型有的時候的確能夠生成一些讓人覺得很驚艷的作品,我就把這個叫做擴散模型 AI 的一種想象力。

所以我們可以看到其實人們在使用這個自回歸模型和擴散模型生成文字和圖像的時候,是符合人們自己去使用文字繪制圖像的方式的,這背后有一種類似于仿生學(xué)的概念,就是人怎么做,我就讓模型去怎么做。

他們雖然有著不同的技術(shù)方案,有著不同的模型,但其實都是解決相對應(yīng)問題的這樣的一種,最短的這樣的一種路徑。

邊界的突破:自回歸模型處理圖像的技術(shù)路徑

那第二個問題就是像 Gemini或者說 Grok -3 的這樣的模型,為什么現(xiàn)在又能夠去完成多模態(tài)的任務(wù)?

既能生成文字,又能生成圖像呢?

這地方說一句就是Gemini其實并沒有公開它的任何技術(shù)資料,所以我們只能去找類似的開源項目,然后弄清楚這背后的秘密。

這方教大家一下怎么找。

首先我們到這個 hugging face 的模型界面,然后我們要去找到多模態(tài)的模型,就是這里的 Any to Any

眾所周知,Deepseek 的開源工作做得非常的完善,所以我們后面所說的關(guān)于自回歸模型的一些討論,其實基本上都是來源于 Janos 的這樣的一個技術(shù)報告啊。

那話說回來,大家可以去思考一下,圖片是連續(xù)的,自回歸擅長處理離散的信號,那我們怎么樣能夠讓自回規(guī)模型去生成圖片或者說處理圖片呢?

那這個地方我們其實可以加一個模塊去做一種轉(zhuǎn)換,我先把圖片的這種連續(xù)信號轉(zhuǎn)成離散信號,之后再用自回規(guī)模型去進行處理。

這個地方 Janus 其實做的就是這樣一件事情,我們可以看到在自回歸的這個模型里面引入了一個新的模塊,叫做 VQ Tokenizer,這個 Tokenizer 就明確實現(xiàn)了連續(xù)特征到離散特征的一個轉(zhuǎn)換,VQ Tokenizer 會構(gòu)建一個稱為這個 Code book 的東西,叫做離散的特征集合,就把原本的連續(xù)特征就映射到這樣的一個集合里啊。

舉個例子,我們還是一張長頸鹿的圖片,在經(jīng)過了 VQ tokenizer 之后,它就會變成,那這個長頸鹿的輪廓是什么樣的?

這個長頸鹿的透視關(guān)系是什么樣的?

這個長頸鹿它的紋理是什么樣的?

這個長頸鹿頭上面有什么?

所以這樣的方式把原本難以直觀表達的這種影視的連續(xù)的特征變成了一種更加明確、更加可控的顯示的特征啊。

雖然 code book 中的這種特征維度其實不是人直接去定義的,比如說長脖子或者獨特斑紋,不是說我想要這兩個特征,它就出現(xiàn)在這個 code book 里面,但是相比于擴散模型而言,我們能夠通過這樣的一個 code book 更清晰地理解這個圖像的生成過程。

那既然如此,對吧。

我們就可以去猜為什么 Germini或者說 Grok-3在圖像編輯的任務(wù)上比擴散模型要強。

首先,既然每一個維度都可以清晰地解釋,當(dāng)我們想明確地把這個長脖子改成短脖子的時候,我們只需要針對那個特征維度的區(qū)域進行一個精準(zhǔn)的修改就可以了,我們不需要擔(dān)心這種修改會影響到這個圖的其他區(qū)域。

所以這種明確的特征表示是為圖像的編輯任務(wù)提供了很大的便利的,而且它能夠最大程度上去保持圖像的一致性。

但是它也有相對應(yīng)的劣勢,當(dāng)我們引入了這個 VQ tokenizer 之后,就意味著你這個多出來的這個模塊,這個 code book 是需要去維護的,是吧?

我怎么樣保證 code book 的這個訓(xùn)練過程和優(yōu)化是足夠準(zhǔn)確的。

我只有這樣的一個模塊不出錯,我才能生成更高質(zhì)量的內(nèi)容。

那除此之外,就是當(dāng)我把無限的信號映射到有限的離散特征之中,肯定會有信息損失,而且這種損失就尤其體現(xiàn)在復(fù)雜的、精細(xì)的場景上。

我們之前說了連續(xù)的特征能夠更好地表達美學(xué)直覺這種藝術(shù)性的抽象概念。

那當(dāng)這些連續(xù)性的信號被強行離散化之后,就很有可能造成細(xì)節(jié)或者說整體美感的這樣的一種下降,所以自回歸模型很有可能在高度復(fù)雜的圖像生成任務(wù)上遇到瓶頸,畢竟有一些美的東西你真的沒有辦法用顯示的或者說用語言去進行一個精確的描述。

那最后其實就是自回規(guī)模型,現(xiàn)在來看在圖像的分辨率上其實還是有一定的劣勢,就基本上是不太趕得上現(xiàn)階段的擴散模型的。

那相對應(yīng)的這個擴散模型的優(yōu)點就是算法更直接,圖像更細(xì)膩、分辨率更高,是吧?

小結(jié)

那綜上所述,其實自回模型和擴散模型雖然有的地方有交叉,但是整體而言它們都有自己的適用領(lǐng)域,并且很有可能聯(lián)合起來使用,嗯,會有更好的思路,所以我們沒有必要去討論這個誰會取代誰啊。

那相比于模型本身,我覺得更重要的是只有當(dāng)我們真正去理解這個技術(shù)背后的原理和它的發(fā)展的這種脈絡(luò)的時候,我們才能在現(xiàn)在這個 AI 的時代浪潮之中,準(zhǔn)確地選擇最適合自己產(chǎn)品的技術(shù)方案,真正地做出屬于自己的判斷。

掌握了這個知識,其實你就已經(jīng)比別人站得更高、看得更遠(yuǎn)了,以未來也會走得更穩(wěn),這個才是我認(rèn)為的,要知其然,更要知其所以然。

作者:Easton ,公眾號:智子觀測站

本文由 @Easton 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 標(biāo)題寫錯了吧。。。。還是要嚴(yán)謹(jǐn)一些

    來自北京 回復(fù)
    1. 抱歉

      來自浙江 回復(fù)