追求模型效率極限,或是中國(guó)大模型的商業(yè)化答案

0 評(píng)論 1659 瀏覽 2 收藏 10 分鐘

“中國(guó)大模型商業(yè)化之路,效率驅(qū)動(dòng)新篇?!?在人工智能領(lǐng)域,中國(guó)大模型如何突破困境實(shí)現(xiàn)商業(yè)化?DeepSeek - v3 模型的出現(xiàn)又帶來(lái)了哪些啟示?

上周末,Deep Seek-v3徹底火了。

很多人都把關(guān)注點(diǎn)放到訓(xùn)練成本下降帶來(lái)的算力需求降低。

但在烏鴉君看來(lái),這事最重要的意義并不在于算力多少,而是印證了一件事:

中國(guó)廠商有能力去探索模型效率的極限能力。

這代表著另一種商業(yè)可能性。

當(dāng)中國(guó)大模型在訓(xùn)練層面臨技術(shù)封鎖,不設(shè)預(yù)算上限的情況下去做突破性研究,變成一件極為困難的事情。如果能在好、快、便宜和可靠性之間找出最優(yōu)解,中國(guó)的科技公司便很有機(jī)會(huì)在AI應(yīng)用大規(guī)模落地的過(guò)程中建立良性的商業(yè)循環(huán)。

過(guò)去十年間,中美分別以不同的方式完成了社會(huì)經(jīng)濟(jì)的數(shù)字化,一個(gè)靠消費(fèi)互聯(lián)網(wǎng),一個(gè)靠SaaS。

如今,這樣的故事將在AI領(lǐng)域重演。

美國(guó)押注模型能力提升,中國(guó)追求模型效率的極限,中美將再次以不同的方式邁向人工智能的時(shí)代。

01 算力被“錯(cuò)殺“了?

上周五,算力板塊大跌。

起因是幻方量化發(fā)了一個(gè)新模型,叫Deep Seek-v3。這個(gè)模型的性能接近GPT-4o和Claude-3.5-Sonnet等閉源模型,但訓(xùn)練成本卻只有同性能模型的十分之一。

據(jù)說(shuō),Deep Seek-v3大模型只用了2048張H800顯卡,2個(gè)月不到時(shí)間訓(xùn)練完畢,計(jì)算預(yù)算只有不到600萬(wàn)美元。而Llama 3.1 405B使用1.6萬(wàn)H100訓(xùn)練了80天。

DeepSeek V3的出現(xiàn),讓很多人出現(xiàn)了一個(gè)疑問(wèn)——算力需求是不是被高估了?其實(shí)并非如此。

第一,很多人對(duì)DeepSeek V3的訓(xùn)練成本存在誤解。

作為一個(gè)后發(fā)模型,DeepSeek V3可以避開(kāi)前人走的坑,或者用更高效方式避坑,也就是“站在巨人的肩膀上”。

這就好比走迷宮,有人花了很大精力走出迷宮。知道路線后,后面的人走出迷宮的時(shí)間就大大縮短了。

考慮到算法進(jìn)步、算力通縮等因素,模型訓(xùn)練成本本身也會(huì)隨著時(shí)間推移而下降。根據(jù)ARK的研究報(bào)告,大模型的訓(xùn)練成本每年下降75%,推理成本每年下降86%。

再者說(shuō),2048塊H800也不是DeepSeek V3全部訓(xùn)練算力投入。

上述成本僅包括DeepSeek-V3 的正式訓(xùn)練,既不包括DeepSeek R1模型生成的高質(zhì)量數(shù)據(jù)消耗的算力,也不包括模型架構(gòu)的探索調(diào)試階段消耗的算力。

比如,后訓(xùn)練的時(shí)候,DeepSeek直接把一個(gè)叫R1的模型,它的推理能力蒸餾到了V3模型上,這樣后訓(xùn)練部分就基本沒(méi)有成本。

第二,算力投入沒(méi)有下降,而是投入方向變了。

過(guò)去,預(yù)訓(xùn)練是提升模型智能的主要路徑,算力主要被用在了卷數(shù)據(jù)量、卷參數(shù)。

但到了現(xiàn)在,單純卷規(guī)模的性價(jià)比越來(lái)越低,算力就被花到了其他更有性價(jià)比的地方,比如卷數(shù)據(jù)質(zhì)量,卷新的Scaling因子(RL、測(cè)試時(shí)間計(jì)算等)。

就拿合成數(shù)據(jù)來(lái)說(shuō),根據(jù)“海外獨(dú)角獸”測(cè)算,像GPT-4, Claude-3.5 水平的模型,想要其大幅提升推理能力,需要合成 1-10T 量級(jí)的高質(zhì)量推理數(shù)據(jù),對(duì)應(yīng)的成本大致需要6-60億美金。

無(wú)論是合成數(shù)據(jù),還是測(cè)試時(shí)間計(jì)算,哪一種方式都是用AI無(wú)限的計(jì)算能力來(lái)補(bǔ)足它數(shù)據(jù)利用效率不夠的短板。

也就是說(shuō),所謂的算力投入并沒(méi)有變小,只是算力投入的方向有所變化。

第三,從絕對(duì)值看,科技巨頭們?cè)谒懔ι系耐度霙](méi)有減少,反而還在大大增加。

根據(jù)國(guó)外網(wǎng)站LessWrong估算,科技巨頭的算力明年將繼續(xù)大幅增長(zhǎng)。即使增長(zhǎng)幅度最少的谷歌,算力規(guī)模也至少實(shí)現(xiàn)了翻倍:微軟有75萬(wàn)-90萬(wàn)塊等效H100,明年預(yù)計(jì)達(dá)到250萬(wàn)-310萬(wàn);谷歌有100萬(wàn)-150萬(wàn)塊等效H100,明年預(yù)計(jì)達(dá)到350萬(wàn)-420萬(wàn);Meta有55萬(wàn)-65萬(wàn)塊等效H100,明年預(yù)計(jì)達(dá)到190萬(wàn)-250萬(wàn);亞馬遜有25萬(wàn)-40萬(wàn)塊等效H100,明年預(yù)計(jì)達(dá)到130萬(wàn)-160萬(wàn);xAI有10萬(wàn)塊等效H100,明年預(yù)計(jì)達(dá)到55萬(wàn)-100萬(wàn);

國(guó)內(nèi)同樣延續(xù)這種趨勢(shì)。根據(jù)浙商證券研報(bào),字節(jié)跳動(dòng)2025年資本開(kāi)始將高達(dá)1600億元,是2024年資本開(kāi)支的一倍,其中約900億元用于AI算力的采購(gòu)。

科技大廠堅(jiān)決投資算力的邏輯也很簡(jiǎn)單。新模型的訓(xùn)練需要更多算力,而AI應(yīng)用的繁榮不僅帶來(lái)了更多的算力需求,也讓算力的投資回報(bào)率更為明確。

02 找到中國(guó)大模型的商業(yè)化答案

DeepSeek-V3這事的最大意義在于,證明了一件事:

即便不是超級(jí)大廠、沒(méi)有10萬(wàn)張GPU的集群,也可以通過(guò)工程創(chuàng)新的方式,訓(xùn)練出足以媲美頂尖模型的成果。

這背后的邏輯是,除了堆先進(jìn)算力外,更靈活、更高效地使用算力將變得越來(lái)越關(guān)鍵。之前,李開(kāi)復(fù)一直在表達(dá)一個(gè)觀點(diǎn):

中國(guó)做AI的優(yōu)勢(shì)從來(lái)不是在不設(shè)預(yù)算上限的情況下去做突破性研究,而是在好、快、便宜和可靠性之間找出最優(yōu)解。

在相當(dāng)長(zhǎng)時(shí)間里,國(guó)內(nèi)大模型一直處于很尷尬的處境,訓(xùn)練階段不僅被技術(shù)封鎖,還容易被海外開(kāi)源降維打擊。但隨著模型走到應(yīng)用階段,這一局面可能將發(fā)生改變。

相比訓(xùn)練的技術(shù)封鎖,推理是很難封鎖的。

原因在于,訓(xùn)練階段能不能成,標(biāo)準(zhǔn)很單一。應(yīng)用生態(tài)能否跑通,取決于每個(gè)國(guó)家的成本結(jié)構(gòu)、商業(yè)模式、經(jīng)濟(jì)模型、產(chǎn)品供給能力,大家各有不同,是個(gè)復(fù)雜的商業(yè)問(wèn)題。

固然,中國(guó)買不到最新的芯片,單位Flops的推理成本永遠(yuǎn)比海外高,但這也倒逼中國(guó)infra出現(xiàn)了各種“工程式創(chuàng)新”,去探索更高效的算力優(yōu)化方式。

至少?gòu)哪壳翱?,?guó)內(nèi)推理優(yōu)化進(jìn)展比大家想象要快。一旦算力優(yōu)化這事跑通,國(guó)內(nèi)大模型在商業(yè)層面建立良性循環(huán)也不是沒(méi)有可能。

也就是說(shuō),中美未來(lái)AI將是兩個(gè)完全不同的故事:美國(guó)押注模型能力提升,中國(guó)追求模型效率的極限。

這就很像當(dāng)年互聯(lián)網(wǎng)所發(fā)生的故事。過(guò)去十年,中國(guó)和美國(guó)在互聯(lián)網(wǎng)領(lǐng)域講了兩個(gè)完全不同的故事:硅谷加倍投入企業(yè)軟件,而中國(guó)則將賭注押在消費(fèi)者應(yīng)用上。

自谷歌和Meta后,美國(guó)科技業(yè)幾乎放棄了在消費(fèi)互聯(lián)網(wǎng)上再造流量入口的嘗試,轉(zhuǎn)而選擇全面擁抱SaaS。軟件也完美接力上一個(gè)十年中的消費(fèi)移動(dòng)應(yīng)用,成為新十年的主流投資趨勢(shì),也跑出了很多優(yōu)秀公司。

而中國(guó)在消費(fèi)互聯(lián)網(wǎng)展現(xiàn)了非凡的生命力,字節(jié)跳動(dòng)把短視頻生意做到了全世界,美團(tuán)把本地生活做成了一個(gè)千億美元的生意,而拼多多也成長(zhǎng)為阿里、亞馬遜一外的電商新一極。

在GPT橫空出世之后,美國(guó)SaaS公司率先受益,紛紛開(kāi)始向客戶提供AI功能,通過(guò)之前建立的客戶基礎(chǔ)和產(chǎn)品場(chǎng)景直接產(chǎn)生商業(yè)回報(bào),大大提升了在AI上創(chuàng)新投入的回報(bào)確定性。而中國(guó)的AI應(yīng)用卻因?yàn)槿狈?chǎng)景和商業(yè)模式而進(jìn)展緩慢。

隨著AI應(yīng)用的逐漸落地,模型效率將會(huì)成為打通中國(guó)大模型產(chǎn)業(yè)商業(yè)循環(huán)的一把“鑰匙”。

文/林白

本文由人人都是產(chǎn)品經(jīng)理作者【林白】,微信公眾號(hào):【烏鴉智能說(shuō)】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!