語(yǔ)言圖像模型大一統(tǒng)!Meta將Transformer和Diffusion融合,多模態(tài)AI王者登場(chǎng)
昨天,Meta最新發(fā)布的Transfusion,能夠訓(xùn)練生成文本和圖像的統(tǒng)一模型了!完美融合Transformer和擴(kuò)散領(lǐng)域之后,語(yǔ)言模型和圖像大一統(tǒng),又近了一步。也就是說(shuō),真正的多模態(tài)AI模型,可能很快就要來(lái)了!
Transformer和Diffusion,終于有了一次出色的融合。
自此,語(yǔ)言模型和圖像生成大一統(tǒng)的時(shí)代,也就不遠(yuǎn)了!
這背后,正是Meta最近發(fā)布的Transfusion——一種訓(xùn)練能夠生成文本和圖像模型的統(tǒng)一方法。
論文地址:https://arxiv.org/abs/2408.11039
英偉達(dá)高級(jí)科學(xué)家Jim Fan盛贊:之前曾有很多嘗試,去統(tǒng)一Transformer和Diffusion,但都失去了簡(jiǎn)潔和優(yōu)雅。
現(xiàn)在,是時(shí)候來(lái)一次Transfusion,來(lái)重新激活這種融合了!
在X上,論文共一Chunting?Zhou,為我們介紹了Transfusion其中的「玄機(jī)」。
為何它能讓我們?cè)谝粋€(gè)模型中,同時(shí)利用兩種方法的優(yōu)勢(shì)?
這是因?yàn)椋琓ransfusion將語(yǔ)言建模(下一個(gè)token預(yù)測(cè))與擴(kuò)散相結(jié)合,這樣,就可以在混合模態(tài)序列上訓(xùn)練單個(gè)Transformer。
研究者從頭開(kāi)始,在混合文本和圖像數(shù)據(jù)上預(yù)訓(xùn)練了參數(shù)量高達(dá)70億的Transfusion模型。
使用文本和圖像數(shù)據(jù)的混合,他們建立了一系列單模態(tài)和跨模態(tài)基準(zhǔn)的縮放定律。
實(shí)驗(yàn)表明,Transfusion在單模態(tài)和多模態(tài)基準(zhǔn)測(cè)試中,相較于對(duì)圖像進(jìn)行量化并在離散圖像token上訓(xùn)練語(yǔ)言模型,很明顯具有更好的擴(kuò)展性。
研究者發(fā)現(xiàn),Transfusion能夠生成與相似規(guī)模的擴(kuò)散模型相媲美的高質(zhì)量圖像,而且,它同時(shí)也保持了強(qiáng)大的文本生成能力。
作者強(qiáng)調(diào),團(tuán)隊(duì)著重做了建模的創(chuàng)新。
首先,全局因果注意力加上每個(gè)圖像內(nèi)的雙向注意力,是至關(guān)重要的。
另外,引入模態(tài)特定的編碼和解碼層后,可以提高性能,并且可以將每個(gè)圖像壓縮到64甚至16個(gè)塊!
總之,研究者成功地證明了,將Transfusion方法擴(kuò)展到70億參數(shù)和2萬(wàn)億多模態(tài)token后,可以生成與類似規(guī)模的擴(kuò)散模型和語(yǔ)言模型相媲美的圖像和文本。
這就充分利用了兩者的優(yōu)勢(shì)!
最后,作者激動(dòng)地暢想道——
Transfusion為真正的多模態(tài)AI模型開(kāi)啟了激動(dòng)人心的可能性。
這些模型可以無(wú)縫處理任何離散和連續(xù)模態(tài)的組合!無(wú)論是長(zhǎng)篇視頻生成、與圖像或視頻的交互式編輯/生成會(huì)話,我們都可以期待了。
01 生圖效果秒殺DALL-E 2和Stable Diffusion
Transfusion的生圖效果如何?
讓我們來(lái)檢驗(yàn)一下。
以下這些,都是用在2萬(wàn)億多模態(tài)token上訓(xùn)練的70億參數(shù)Transfusion生成的圖像——
可以看出,它的生圖質(zhì)量非常之高。
在GenEval基準(zhǔn)測(cè)試上,它直接超越了DALL-E 2和Stable Diffusion XL!
研究者訓(xùn)練了一個(gè)具有U-Net編碼/解碼層(2×2潛在像素塊)的70億參數(shù)模型,處理相當(dāng)于2T tokens的數(shù)據(jù),其中包括1T文本語(yǔ)料庫(kù)tokens和35億張圖像及其標(biāo)注。
表9顯示,Transfusion在性能上與高性能圖像生成模型如DeepFloyd相當(dāng),同時(shí)超越了先前發(fā)布的模型,包括SDXL。
雖然Transfusion在SD 3后面稍顯遜色,但該模型通過(guò)反向翻譯利用合成圖像標(biāo)注,將其GenEval性能在小規(guī)模上提升了6.5%(0.433→0.498)。
此外,Transfusion模型也可以生成文本,并且其性能與在相同文本數(shù)據(jù)分布上訓(xùn)練的Llama模型相當(dāng)。
02 圖像編輯
以下這些,則是用微調(diào)后的70億參數(shù)Transfusion模型編輯的圖像——
研究者使用僅包含8000個(gè)公開(kāi)可用圖像編輯示例的數(shù)據(jù)集對(duì)70億參數(shù)模型進(jìn)行了微調(diào),其中每個(gè)示例包括一個(gè)輸入圖像、一個(gè)編輯提示詞和一個(gè)輸出圖像。
對(duì)EmuEdit測(cè)試集中隨機(jī)示例的人工檢查表明,微調(diào)的Transfusion模型可以按照指示進(jìn)行圖像編輯。
也就是說(shuō),Transfusion模型確實(shí)可以適應(yīng)并泛化到新的模態(tài)組合。
03 讓語(yǔ)言和圖像大一統(tǒng)的模型來(lái)了
我們都知道,多模態(tài)生成模型需要能夠感知、處理和生成離散元素(如文本或代碼)和連續(xù)元素(例如圖像、音頻和視頻數(shù)據(jù))。
不過(guò),離散元素和連續(xù)元素,卻很難在同一個(gè)模型中大一統(tǒng)起來(lái)。
在離散模態(tài)中,是語(yǔ)言模型占主導(dǎo)地位,它靠的是在下一個(gè)token預(yù)測(cè)目標(biāo)上訓(xùn)練的。
而在生成連續(xù)模態(tài)上,則是擴(kuò)散模型及其泛化一直處于最前沿。
有沒(méi)有可能將二者相結(jié)合呢?
此前,學(xué)界曾嘗試了多種方法,包括擴(kuò)展語(yǔ)言模型,以使用擴(kuò)散模型作為工具,或者通過(guò)將預(yù)訓(xùn)練的擴(kuò)散模型移植到語(yǔ)言模型上。
此外,還有人通過(guò)量化連續(xù)模態(tài),在離散tokens上訓(xùn)練標(biāo)準(zhǔn)語(yǔ)言模型,從而簡(jiǎn)化模型架構(gòu)。
然而這樣做的代價(jià),就是信息的丟失。而Meta的研究者在這項(xiàng)工作中,通過(guò)訓(xùn)練單個(gè)模型,來(lái)同時(shí)預(yù)測(cè)離散文本tokens和擴(kuò)散連續(xù)圖像,他們成功地做到了完全整合兩種模態(tài),而不丟失信息。
他們的方法就是——引入Transfusion。
這是一種訓(xùn)練單一統(tǒng)一模型的方法,可以無(wú)縫理解和生成離散和連續(xù)的模態(tài)。
研究者的主要?jiǎng)?chuàng)新就在于,他們針對(duì)不同的模態(tài)使用了不同的損失——文本使用語(yǔ)言建模,圖像使用擴(kuò)散——從而在共享的數(shù)據(jù)和參數(shù)上進(jìn)行訓(xùn)練
研究者在50%的文本和50%的圖像數(shù)據(jù)上預(yù)訓(xùn)練了一個(gè)Transformer模型,不過(guò)對(duì)于兩種模態(tài)來(lái)說(shuō),分別使用了不同的目標(biāo)。
前者的目標(biāo)是,預(yù)測(cè)文本的下一個(gè)token;而后者的目標(biāo),則是圖像的擴(kuò)散。
在每個(gè)訓(xùn)練步驟中,模型都會(huì)同時(shí)接觸到這兩種模態(tài)和損失函數(shù)。標(biāo)準(zhǔn)嵌入層將文本tokens轉(zhuǎn)換為向量,而塊化層(patchification layer)則將每個(gè)圖像表征為一系列塊向量。
隨后,研究者對(duì)文本tokens應(yīng)用因果注意力,對(duì)圖像塊應(yīng)用雙向注意力。
在推理時(shí),他們引入了一種解碼算法,它結(jié)合了語(yǔ)言模型的文本生成和擴(kuò)散模型的圖像生成的標(biāo)準(zhǔn)實(shí)踐。
從此,有望訓(xùn)練真正的多模態(tài)模型
在文本到圖像生成中,研究者發(fā)現(xiàn):Transfusion在計(jì)算量不到三分之一的情況下,F(xiàn)ID和CLIP分?jǐn)?shù)均超過(guò)了Chameleon的離散化方法。
在控制FLOPs的情況下,Transfusion的FID分?jǐn)?shù)比Chameleon模型低約2倍。
在圖像到文本生成中,也可以觀察到類似的趨勢(shì):Transfusion在21.8%的FLOPs下與Chameleon匹敵。
令人驚訝的是,Transfusion在學(xué)習(xí)文本到文本預(yù)測(cè)方面也更有效,在大約50%到60%的Chameleon FLOPs下實(shí)現(xiàn)了文本任務(wù)的困惑度平價(jià)。
同時(shí),研究者觀察到:圖像內(nèi)的雙向注意力非常重要,如果用因果注意力替代它,就會(huì)損害文本到圖像生成。
他們還發(fā)現(xiàn),通過(guò)添加U-Net上下塊來(lái)編碼和解碼圖像,就可以使Transfusion在相對(duì)較小的性能損失下,壓縮更大的圖像塊,從而能將服務(wù)成本降低到多達(dá)64倍。
最后,研究者證明了:Transfusion可以生成與其他擴(kuò)散模型相似質(zhì)量的圖像。
他們?cè)?萬(wàn)億tokens上,從零開(kāi)始訓(xùn)練了一個(gè)7B參數(shù)的Transformer,它增強(qiáng)了U-Net的下采樣/上采樣層(0.27B參數(shù))。
在這2萬(wàn)億tokens中,包含1萬(wàn)億的文本tokens,以及大約5個(gè)周期的692M圖像及標(biāo)注,相當(dāng)于另外1萬(wàn)億個(gè)patches/tokens。
在GenEval基準(zhǔn)上,Transfusion模型優(yōu)于其他流行模型,如DALL-E 2和SDXL。
而且,與那些圖像生成模型不同的是,它還可以生成文本,在文本基準(zhǔn)上達(dá)到了Llama 1級(jí)別的性能水平。
總之,實(shí)驗(yàn)表明:Transfusion是一種十分有前途的方法,可以用于訓(xùn)練真正的多模態(tài)模型。
數(shù)據(jù)表征
研究者在兩種模態(tài)上進(jìn)行了數(shù)據(jù)實(shí)驗(yàn):離散文本和連續(xù)圖像。
每個(gè)文本字符串被標(biāo)記化為來(lái)自固定詞匯表的離散token序列,其中每個(gè)token被表征為一個(gè)整數(shù)。
每個(gè)圖像被編碼為使用VAE的潛在塊,其中每個(gè)塊被表征為一個(gè)連續(xù)向量;這些塊從左到右、從上到下排序,以從每個(gè)圖像創(chuàng)建一個(gè)塊向量序列。
對(duì)于混合模態(tài)的例子,研究者在將圖像序列插入文本序列之前,用特殊的圖像開(kāi)始(BOI)和圖像結(jié)束(EOI)token包圍每個(gè)圖像序列。
因此,就得到了一個(gè)可能同時(shí)包含離散元素(表征文本token的整數(shù))和連續(xù)元素(表征圖像塊的向量)的單一序列。
模型架構(gòu)
模型的大部分參數(shù)屬于一個(gè)單一的Transformer,它會(huì)處理每個(gè)序列,無(wú)論模態(tài)如何。
Transformer將一個(gè)高維向量序列作為輸入,并生成類似的向量作為輸出。
為了將數(shù)據(jù)轉(zhuǎn)換到這個(gè)空間,研究者使用了具有不共享參數(shù)的輕量級(jí)模態(tài)組件。
對(duì)于文本,這些自己組件是嵌入矩陣,會(huì)將每個(gè)輸入整數(shù)轉(zhuǎn)換為向量空間,并將每個(gè)輸出向量轉(zhuǎn)換為詞匯表上的離散分布。
對(duì)于圖像,研究者則嘗試了兩種方法,將k×k塊向量的局部窗口壓縮為單個(gè)Transformer向量(反之亦然):(1)一個(gè)簡(jiǎn)單的線性層,以及(2)U-Net的上下塊。
研究者使用預(yù)訓(xùn)練的VAE(變分自編碼器)將圖像和潛在表征進(jìn)行互相轉(zhuǎn)換,然后通過(guò)簡(jiǎn)單的線性層或U-Net下采樣塊,將其轉(zhuǎn)換為patch表征
Transfusion注意力
語(yǔ)言模型通常使用因果掩碼,來(lái)有效地計(jì)算整個(gè)序列的損失和梯度,只需一次前向-后向傳遞,而不會(huì)泄露未來(lái)token的信息。
相比之下,圖像通常會(huì)使用不受限制的(雙向)注意力來(lái)建模。
而Transfusion通過(guò)對(duì)序列中的每個(gè)元素應(yīng)用因果注意力,并在每個(gè)單獨(dú)圖像的元素內(nèi)應(yīng)用雙向注意力,來(lái)結(jié)合這兩種注意力模式。
這樣,每個(gè)圖像塊就可以在關(guān)注同一圖像中其他塊的同時(shí),只關(guān)注序列中先前出現(xiàn)的文本或其他圖像的塊。
結(jié)果顯示,啟用圖像內(nèi)注意力顯著提升了模型性能。
在因果掩碼上擴(kuò)展后,Transfusion就允許同一圖像的patch相互為條件
訓(xùn)練目標(biāo)
為了訓(xùn)練模型,研究者將語(yǔ)言建模目標(biāo)LLM應(yīng)用于文本token的預(yù)測(cè),將擴(kuò)散目標(biāo)LDDPM應(yīng)用于圖像塊的預(yù)測(cè)。
LM損失是逐個(gè)token計(jì)算的,而擴(kuò)散損失是逐個(gè)圖像計(jì)算的,這可能跨越序列中的多個(gè)元素(圖像塊)。
具體來(lái)說(shuō),他們根據(jù)擴(kuò)散過(guò)程,向每個(gè)輸入潛在圖像x0添加噪聲ε,以在塊化之前產(chǎn)生xt,然后計(jì)算圖像級(jí)別的擴(kuò)散損失。
通過(guò)簡(jiǎn)單地將每種模態(tài)上計(jì)算出的損失與平衡系數(shù)λ結(jié)合,研究者合并了這兩種損失:
這個(gè)公式,也是一個(gè)更廣泛想法的具體實(shí)例:將離散分布損失和連續(xù)分布損失結(jié)合,就可以優(yōu)化同一模型。
推理
為了反映訓(xùn)練目標(biāo),解碼算法也需要在兩種模式之間切換:LM和擴(kuò)散。
在LM模式中,從預(yù)測(cè)分布中逐個(gè)token進(jìn)行采樣。當(dāng)采樣到一個(gè)BOI token時(shí),解碼算法切換到擴(kuò)散模式。
具體來(lái)說(shuō),這需要將形式為n個(gè)圖像塊的純?cè)肼晉T附加到輸入序列中(取決于所需的圖像大?。?,并在T步內(nèi)去噪。
在每一步t中,噪聲會(huì)被預(yù)測(cè)并使用它生成x_(t?1),然后將其覆蓋在序列中的x_t上。即,模型始終基于噪聲圖像的最后一個(gè)時(shí)間步進(jìn)行條件處理,無(wú)法關(guān)注之前的時(shí)間步。
一旦擴(kuò)散過(guò)程結(jié)束,就將一個(gè)EOI token附加到預(yù)測(cè)的圖像上,并切換回LM模式。
如此一來(lái),就可以生成任意混合的文本和圖像模態(tài)。
04 實(shí)驗(yàn)
與Chameleon的比較
研究者在不同模型規(guī)模(N)和token計(jì)數(shù)(D)下,比較了Transfusion與Chameleon,并使用兩者的組合作為FLOPs(6ND)的代理。
為了簡(jiǎn)化和參數(shù)控制,這些實(shí)驗(yàn)中的Transfusion變體使用簡(jiǎn)單的線性圖像編碼器/解碼器,塊大小為2×2,以及雙向注意力。
如圖5所示,在每個(gè)基準(zhǔn)測(cè)試中,Transfusion始終表現(xiàn)出比Chameleon更好的scaling law。
受參數(shù)、數(shù)據(jù)和計(jì)算控制的不同規(guī)模的Transfusion和Chameleon模型的性能,其中所有軸都是對(duì)數(shù)的
表3則顯示了模型的評(píng)估結(jié)果,以及平價(jià)FLOP比率。
其中,平價(jià)FLOP比率用來(lái)估算相對(duì)計(jì)算效率:Transfusion和Chameleon達(dá)到相同性能水平所需的FLOPs數(shù)量之比。
計(jì)算效率的差異在圖像生成中特別顯著,其中FID Transfusion以1/34的計(jì)算量實(shí)現(xiàn)了與Chameleon的平價(jià)。
最大(7B)Transfusion和Chameleon模型在受控環(huán)境中的性能,兩個(gè)模型均在0.5T token上進(jìn)行訓(xùn)練
令人驚訝的是,純文本基準(zhǔn)測(cè)試也顯示出Transfusion的更好性能,即使Transfusion和Chameleon以相同方式建模文本。
與原始Llama 2配方相比,0.76B Transfusion和Chameleon模型在純文本基準(zhǔn)上的性能
架構(gòu)消融
1)注意力掩碼
表5顯示,在所有基準(zhǔn)測(cè)試中,啟用這種注意力模式比標(biāo)準(zhǔn)因果注意力效果更好,并且在使用圖像編碼/解碼架構(gòu)時(shí)也是如此。特別是,在使用線性編碼層時(shí),F(xiàn)ID的改善最為顯著(61.3→20.3)。
在僅因果的架構(gòu)中,序列中后出現(xiàn)的塊不會(huì)向前面的塊傳遞信息;由于U-Net塊內(nèi)含有雙向注意力,并獨(dú)立于Transformer的注意力掩碼,因此這種差距不太明顯。
有/無(wú)圖像內(nèi)雙向注意力的0.76B Transfusion模型的性能
2)塊大小
Transfusion模型可以在不同尺寸的潛在像素塊上定義。較大的塊大小允許模型在每個(gè)訓(xùn)練批次中打包更多圖像,并顯著減少推理計(jì)算量,但可能會(huì)帶來(lái)性能損失。
表6顯示,雖然隨著每個(gè)圖像由更少的線性編碼塊表征,性能確實(shí)一致下降,但使用U-Net編碼的模型在涉及圖像模態(tài)的任務(wù)中受益于較大的塊。
這可能是因?yàn)橛?xùn)練期間看到的總圖像(和擴(kuò)散噪聲)數(shù)量更大。
此外,隨著塊逐漸變大,文本性能也在變差。
這可能是因?yàn)門ransfusion需要投入更多資源(即參數(shù))來(lái)學(xué)習(xí)如何處理具有較少塊的圖像,從而減少推理計(jì)算。
3)塊編碼/解碼架構(gòu)
實(shí)驗(yàn)表明,使用U-Net的上升和下降塊比使用簡(jiǎn)單的線性層有優(yōu)勢(shì)。
一個(gè)可能的原因是模型受益于U-Net架構(gòu)的歸納偏置;另一種假設(shè)是,這種優(yōu)勢(shì)來(lái)自于U-Net層引入的整體模型參數(shù)的顯著增加。
為了分離這兩個(gè)混雜因素,研究者將核心Transformer擴(kuò)展到70億個(gè)參數(shù),同時(shí)保持U-Net參數(shù)量(幾乎)不變;在這種設(shè)置下,額外的編碼器/解碼器參數(shù)僅占總模型參數(shù)的3.8%增加,相當(dāng)于token嵌入?yún)?shù)的量。
表7顯示,盡管隨著Transformer的增長(zhǎng),U-Net層的相對(duì)優(yōu)勢(shì)縮小,但并未消失。
例如,在圖像生成中,U-Net編碼器/解碼器使得較小的模型能夠獲得比使用線性塊化層的70億模型更好的FID分?jǐn)?shù)。
在圖像描述中,也有類似的趨勢(shì)——添加U-Net層讓1.4B Transformer(總計(jì)1.67B)的CIDEr得分超過(guò)了線性70億模型的性能。
總體而言,U-Net對(duì)圖像的編碼和解碼確實(shí)具有歸納偏置的優(yōu)勢(shì)。
Transfusion的線性和U-Net變體在不同模型大小上的性能
4)圖像加噪
實(shí)驗(yàn)中,80%的圖像-標(biāo)注對(duì)按照標(biāo)注優(yōu)先的順序排列,圖像依賴于標(biāo)注,這基于圖像生成可能比圖像理解更需要數(shù)據(jù)的直覺(jué)。剩下的20%對(duì)則是標(biāo)注依賴于圖像。
然而,這些圖像需要作為擴(kuò)散目標(biāo)的一部分被加噪。
為此,研究者測(cè)量了在20%的情況下限制擴(kuò)散噪聲到最大t=500,即圖像在標(biāo)注之前出現(xiàn)時(shí)的效果。
表8顯示,限制噪聲顯著改善了圖像描述,CIDEr得分顯著提高,同時(shí)對(duì)其他基準(zhǔn)測(cè)試的影響相對(duì)較小(小于1%)。
結(jié)論
這項(xiàng)研究探討了如何彌合離散序列建模(下一個(gè)token預(yù)測(cè))與連續(xù)媒體生成(擴(kuò)散)之間的差距。
研究者提出了一個(gè)簡(jiǎn)單但以前未被探索的解決方案:在兩個(gè)目標(biāo)上訓(xùn)練一個(gè)聯(lián)合模型,將每種模態(tài)與其偏好的目標(biāo)聯(lián)系起來(lái)。
實(shí)驗(yàn)表明,Transfusion可以有效擴(kuò)展,幾乎沒(méi)有參數(shù)共享成本,同時(shí)能夠生成任何模態(tài)。
作者介紹
Chunting Zhou
共同一作Chunting Zhou,是Meta AI的研究科學(xué)家,研究興趣是高效且可擴(kuò)展的生成模型。
她于2022年在卡耐基梅隆大學(xué)計(jì)算機(jī)科學(xué)學(xué)院的語(yǔ)言技術(shù)研究所獲得博士學(xué)位,從事的是自然語(yǔ)言處理的研究。此前,她于2016年在香港大學(xué)獲得計(jì)算機(jī)科學(xué)碩士學(xué)位,于2014年在大連理工大學(xué)獲得計(jì)算機(jī)軟件工程學(xué)士學(xué)位。
Lili Yu
另一位共同一作Lili Yu,也是Meta AI的研究科學(xué)家。
她于2016年在麻省理工學(xué)院獲得電氣工程與計(jì)算機(jī)科學(xué)博士學(xué)位,于2011年在北京大學(xué)獲得物理學(xué)學(xué)士學(xué)位。
Xuezhe Ma
在這篇論文中,還有一位華人作者Xuezhe Ma,是南加州大學(xué)信息科學(xué)研究所的研究主管和計(jì)算機(jī)科學(xué)系的研究助理教授。
原則上,表征學(xué)習(xí)可以自動(dòng)學(xué)習(xí)在數(shù)學(xué)和計(jì)算上便于處理的表征。對(duì)此Xuezhe Ma認(rèn)為,基于深度學(xué)習(xí)方法的表征學(xué)習(xí)技術(shù)可以從根本上改變傳統(tǒng)的特征設(shè)計(jì)范式。
他的研究重點(diǎn)是通過(guò)開(kāi)發(fā)和分析深度學(xué)習(xí)技術(shù)來(lái)實(shí)現(xiàn)這一轉(zhuǎn)變,以提高表征學(xué)習(xí)的有效性、效率、可解釋性和魯棒性。
主要貢獻(xiàn)如下:
– 多模態(tài)大語(yǔ)言模型(LLMs)的效率開(kāi)發(fā)了高效的統(tǒng)一神經(jīng)架構(gòu)和學(xué)習(xí)算法,以學(xué)習(xí)各種數(shù)據(jù)模態(tài)的通用語(yǔ)義空間。
– 大語(yǔ)言模型中的高效且魯棒的長(zhǎng)上下文建模開(kāi)發(fā)了高效且魯棒的架構(gòu)和方法,用于在大語(yǔ)言模型中建模長(zhǎng)程依賴關(guān)系。
– 多模態(tài)大語(yǔ)言模型在長(zhǎng)序列數(shù)據(jù)中的應(yīng)用和評(píng)估方法將長(zhǎng)上下文大語(yǔ)言模型應(yīng)用于實(shí)際任務(wù),并開(kāi)發(fā)可靠的評(píng)估指標(biāo)。
他在卡耐基梅隆大學(xué)語(yǔ)言技術(shù)研究所獲得博士學(xué)位,師從Eduard Hovy教授,并在上海交通大學(xué)獲得了計(jì)算機(jī)科學(xué)碩士和學(xué)士學(xué)位。
參考資料:
https://the-decoder.com/metas-transfusion-blends-language-models-and-image-generation-into-one-unified-model/
https://x.com/violet_zct/status/1826243212530610389
https://x.com/DrJimFan/status/1827116592951652823
編輯:Aeneas 好困
本文由人人都是產(chǎn)品經(jīng)理作者【新智元】,微信公眾號(hào):【新智元】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自Unsplash,基于 CC0 協(xié)議。
- 目前還沒(méi)評(píng)論,等你發(fā)揮!