50美元訓(xùn)練出DeepSeek R1?

0 評論 2075 瀏覽 0 收藏 6 分鐘

近期,科技圈流傳著一個令人震驚的消息:李飛飛團(tuán)隊僅用 50 美元就訓(xùn)練出了一個與 DeepSeek R1 性能相當(dāng)?shù)?AI 推理模型。這一消息引發(fā)了廣泛討論,許多人質(zhì)疑其真實性和可行性。本文將深入剖析這一研究背后的真相,探討其技術(shù)細(xì)節(jié)、依賴條件以及潛在的商業(yè)應(yīng)用前景。

前天下午,一個信息在科技圈傳起來了。

說李飛飛團(tuán)隊花了50美元就訓(xùn)練出了一個和DeepSeek R1差不多厲害的AI推理模型。這聽起來簡直像科幻小說的情節(jié),但事實真的如此嗎?

我趕緊看了下研究論文,發(fā)現(xiàn)并不是這樣。

先說說這個模型是怎么來的。其實,李飛飛團(tuán)隊并沒有完全從頭開始訓(xùn)練一個新的模型。這個名為S1的模型,實際上是基于阿里云的通義千問(Qwen)模型進(jìn)行監(jiān)督微調(diào)的結(jié)果。

就像在已經(jīng)蓋好的大樓上加點裝飾一樣。所以,所謂的“50美元奇跡”,是站在了別人已經(jīng)搭好的高臺上才做到的。

既然是微調(diào),具體是怎么微調(diào)的呢?主要有兩點:

  1. 精心挑選數(shù)據(jù)
  2. 使用高效訓(xùn)練

他們找了一個很小的數(shù)據(jù)集,只有1000個問題,但這些問題都是精心挑出來的,難度高、種類多,質(zhì)量還特別好。這些數(shù)據(jù)是從谷歌Gemini 2.0 Flash Thinking Experimental模型中蒸餾出來的,就像把精華部分提取出來一樣。

訓(xùn)練過程是,他們用了16臺很厲害的電腦(Nvidia H100 GPU),訓(xùn)練時間不到30分鐘,總共花了不到50美元。就這樣,S1模型在有限的資源下實現(xiàn)了性能的提升。

我一聽,這不就像去網(wǎng)吧借了幾臺電腦,花了點零花錢,就開發(fā)出了一款王者榮耀一樣。中文自媒體最喜歡這種噱頭,各種蹭熱點,大家都知道,現(xiàn)在DeepSeek R1特別火,誰都想在熱點上分一杯羹。但這種操作,確實有點噱頭了。

不過,我覺得,雖然這個方法聽起來很厲害,但能不能真的推廣開來,還得好好思考一下。

為什么呢?

首先,這個方法太依賴通義千問模型了。如果沒有強(qiáng)大的基礎(chǔ),這個模型就沒辦法表現(xiàn)得那么好。這就像是搭積木,底下的積木要是不穩(wěn),上面再怎么裝飾也沒用。

然后,1000個數(shù)據(jù)在處理很復(fù)雜的問題時可能不夠用。畢竟,有時候,我們要更多的數(shù)據(jù)來讓模型更聰明。而且,這種依賴外部模型進(jìn)行微調(diào)的方式還可能引發(fā)知識產(chǎn)權(quán)的問題。

比如,大家都用別人的模型來訓(xùn)練自己的模型,那原來的模型開發(fā)者是不是應(yīng)該得到一些回報呢?

不過,盡管有這些問題存在,我認(rèn)為,李飛飛團(tuán)隊的研究還是給了我們很多啟發(fā)。即:可以花很少的錢,也能訓(xùn)練出很厲害的AI模型。因為,這對于小公司、個人開發(fā)者,還有那些教育資源不夠的地方來說,是個很大的鼓舞。

但是,這個模型到底能不能商用呢?

這又是一個問題。雖然訓(xùn)練成本降低了,但商用還要考慮很多因素。比如:模型的穩(wěn)定性和可靠性。比如,DeepSeek R1雖然訓(xùn)練成本低,但它的推理成本其實也不低。而且,訓(xùn)練模型只是第一步,模型的維護(hù)和更新也需要持續(xù)投入。

我覺得,這種小模型的確是一種探索。像我前一段時間本地部署了兩個模型,電腦熱得可以蒸雞蛋。那時,我在想,要是能再小點、再聰明點,就好了。

總之,雖然「50美元訓(xùn)練出AI模型」聽起來很誘人。

但我們還是要理性看待這件事,它并不是說AI技術(shù)一下子就變得特別簡單了,而是在特定的條件下,找到了一種新的方法;我們不能因為這個,就忽略基礎(chǔ)研究和大規(guī)模投入的重要性。

不過,這也確實是好消息,說明AI技術(shù)正在朝著更平民化的方向發(fā)展。希望未來,每個電腦上都能有一個小模型。到時候,只要對著電腦說說話,就能搞定很多任務(wù),那該多好。

報告參考:

[1].論文:https://arxiv.org/html/2501.19393v1

[2].GitHub:https://github.com/simplescaling/s1

本文由人人都是產(chǎn)品經(jīng)理作者【王智遠(yuǎn)】,微信公眾號:【王智遠(yuǎn)】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!