Deepseek新論文稀疏注意力機制NSA與Grok3
DeepSeek團隊在推特上發(fā)布了一篇新的論文,是解決模型在處理長上下文窗口的能力。馬斯克的Grok3模型也在前幾天發(fā)布了;這篇文章,我們就來看看作者對論文的分析,以及對幾個產(chǎn)品的分析與見解。
最近(2025 年 2 月)DeepSeek團隊在推特上發(fā)布了一篇新的論文,這個論文解決的是模型在處理長上下文窗口的能力。曾經(jīng)谷歌發(fā)布過一個論文叫做 《Attention is all you need 》這個Attention 叫做注意力機制,在大模型的處理中,是一個非常關(guān)鍵的技術(shù),就像你讀一本書,你需要全都讀下來,每個字都要看一遍,之前的注意力機制叫做 full attention 就是你需要關(guān)注到每個字和每個字之間的相互關(guān)系。但是這次deepseek 的NSA 原生稀疏注意力機制,它會想一些辦法去略讀,它不需要關(guān)注這篇文章所有詞之間的相關(guān)關(guān)系,而是只要把其中重要的一些,把它看到就好了。
下面讓我們仔細來看看這篇論文
一、論文的核心觀點
論文提出了一種原生稀疏注意力機制(NSA),它將算法創(chuàng)新與硬件對齊優(yōu)化相結(jié)合,以實現(xiàn)高效的長上下文模型。
1、NSA 采用動態(tài)分層稀疏策略,結(jié)合粗粒度標記壓縮和細粒度標記選擇,以保持全局上下文意識和局部精度。這樣既有對全局的理解也能減少冗余的計算。
2、對 GPU 的 Tensor Core 特性設(shè)計高效的計算內(nèi)核,讓NSA 在 64k 長度序列的解碼、正向傳播和反向傳播方面相對于全注意力( full attention)實現(xiàn)了顯著的加速,驗證了其在整個模型生命周期中的效率。
3、實現(xiàn)了端到端訓練,在不犧牲模型性能的情況下減少了預訓練的計算。實驗表明,使用 NSA 預訓練的模型在通用理解、長上下文任務和基于指令的推理方面保持了或超過了全注意力( full attention)模型。同時,大幅降低算力成本。
二、研究方法
NSA 的核心在于其動態(tài)層次化的稀疏策略,具體包括以下幾個方面:
1、令牌壓縮(Token Compression):通過將連續(xù)的鍵(key)或值(value)序列聚合為塊級表示,減少計算負擔。壓縮后的鍵和值能夠捕獲整個塊的信息,從而實現(xiàn)粗粒度的語義信息捕獲。(簡單來說就是:它把所有的token都切成塊,每塊提煉出一些關(guān)鍵信息,相當于做了一個摘要)
2、令牌選擇(Token Selection):在壓縮的基礎(chǔ)上,選擇性地保留一些關(guān)鍵的鍵和值,以保留重要的細粒度信息。這一過程通過塊級選擇策略實現(xiàn),即對鍵和值序列進行空間連續(xù)的塊劃分,并根據(jù)塊的重要性分數(shù)選擇最重要的塊。(簡單來說就是:選擇這些塊里面,這些關(guān)鍵信息里,一些重要的詞的意思。就像這些塊里面的內(nèi)容,我并不是都需要,所以我會選擇一些關(guān)鍵詞,或者是跳過一些不太重要的詞)
3、滑動窗口(Sliding Window):為了處理局部上下文信息,NSA 引入了滑動窗口機制,專門處理局部模式,使模型能夠更有效地學習全局和局部特征。(簡單來說就是:剛才切的這些塊之間可能還會有一些關(guān)聯(lián))
大概就是通過這樣一個算法,讓大模型產(chǎn)生一個稀疏注意力,這樣的話,它不需要關(guān)注全局所有詞之間的相關(guān)關(guān)系,而是只要把其中重要的一些找到就好了。
deepseek團隊用這樣的方法去做了測評,甚至評測出的結(jié)果甚至比全注意力( full attention)還要好,而且它的計算的能耗壓縮是非常顯著的,在這個全流程的過程當中,節(jié)省的成本不只是一點半點
同時他們不但在算法上有優(yōu)化,還在硬件上也有優(yōu)化,硬件也能讓效能有所提升。當然硬件也不是說在英偉達的卡上面做優(yōu)化。
三、實驗
1、實驗設(shè)置
- 預訓練:使用 27B 參數(shù)的 Transformer 模型,預訓練 260B 個 token。
- 長文本適應:在 32k 長度文本上進行持續(xù)訓練和監(jiān)督微調(diào) (SFT),以實現(xiàn)長文本適應。
- 基線模型:Full Attention 模型,以及其他稀疏注意力方法,例如 H2O、infLLM、Quest 和 Exact-Top。
2、評估指標
- 通用語言評估 (例如,MMLU)
- 長文本評估 (例如,LongBench)
- Chain-of-thought 推理評估 (例如,AIME)
3、實驗結(jié)果
- NSA 在預訓練過程中表現(xiàn)出穩(wěn)定的收斂性,并且在損失值上優(yōu)于全注意力模型。
- 通用評估:在多個基準測試中,NSA 在知識、推理和編碼任務上均表現(xiàn)出色,甚至在某些指標上超過了全注意力模型。例如,在 DROP 和 GSM8K 測試中,NSA 分別提高了 0.042 和 0.034 的準確率。
- 長文本評估:NSA 在 64k 上下文的 Needle-in-a-Haystack 測試中,NSA 實現(xiàn)了完美的檢索準確率。在 LongBench 測試中,NSA 的平均得分超過了所有基線方法,包括全注意力模型。
- 推理評估:在 AIME 基準測試中,NSA 在 8k 和 16k 序列長度上均優(yōu)于全注意力模型,顯示出其在復雜推理任務中的優(yōu)勢。
- 效率分析:NSA 在訓練和解碼速度上均優(yōu)于全注意力模型:訓練速度:在 64k 序列長度下,NSA 實現(xiàn)了高達 9.0× 的前向速度提升和 6.0× 的反向速度提升。解碼速度:由于減少了 KV 緩存的加載量,NSA 在解碼過程中實現(xiàn)了高達 11.6× 的速度提升。
四、關(guān)鍵結(jié)論
NSA 通過其層次化的稀疏注意力設(shè)計,在保持全注意力模型性能的同時,實現(xiàn)了顯著的計算效率提升。具體來說:
- 性能:NSA 在多個基準測試中表現(xiàn)出色,尤其是在需要長序列理解和復雜推理的任務中。
- 效率:NSA 在訓練和推理過程中均實現(xiàn)了顯著的速度提升,特別是在處理長序列時,其優(yōu)勢更加明顯。
- 可訓練性:NSA 支持端到端的訓練,減少了預訓練計算成本,同時保持了模型性能。
五、Grok3 是什么
Grok3是由埃隆·馬斯克旗下的xAI公司開發(fā)的第三代大語言模型,于2025年2月17日正式發(fā)布。Grok3 目前有最大的算力集群,它是用20萬塊H100來訓練出來的大模型,它的進展速度是非??斓?,在非常的時間內(nèi),就提升到了鼻尖 OpenAI 01 03等等這些模型的水平,甚至在這個數(shù)學,編程能力方面是有超越的。
但是 Grok3 在算力的消耗方面、成本方面都是是非常巨大的,是deepseek v1的 263倍。所以巨大的算力是Grok3的一個典型的特征,在發(fā)布會中,也提到了多模態(tài)的能力,也結(jié)合了應用作了一些優(yōu)化,目前Grok3最大的這個模型還在訓練中。接下來還會有更多的測評出來。
以下是其主要特點和功能:
1、訓練與硬件
- 超強算力:Grok3的訓練得益于xAI公司的Colossus超級計算機,該系統(tǒng)配備了10萬個NVIDIA H100 GPU,提供了超過2億個GPU小時的計算資源,計算能力是上一代Grok2的十倍。
- 合成數(shù)據(jù)訓練:Grok3在合成數(shù)據(jù)的基礎(chǔ)上進行訓練,能夠通過重讀數(shù)據(jù)來反思所犯的錯誤,從而達到邏輯上的一致性。
2、核心功能
- 思維鏈推理能力:Grok3引入了“思維鏈”(Chain of Thought)推理機制,模仿人類的認知過程,使其在面對復雜查詢時能夠以更連貫和有邏輯的方式反應。
- 多模態(tài)能力:Grok3具備強大的多模態(tài)能力,能夠同時處理圖像、視頻和3D動畫數(shù)據(jù),展示了其強大的創(chuàng)作能力。
- DeepSearch模式:該模式能夠搜索互聯(lián)網(wǎng)和X平臺(前Twitter)的內(nèi)容,用AI進行深度研究,分析這些信息,并為用戶提供精確的搜索結(jié)果和詳細答案。
- Big Brain模式:此模式使用更高的計算資源和更深入的推理過程,旨在處理和解決更復雜的問題。
3、性能表現(xiàn)
- 多項任務領(lǐng)先性能:在數(shù)學推理、科學邏輯推理和代碼編寫等多個基準測試中,Grok3超過了競爭對手,如DeepSeek-v3、GPT-4o和Gemini-2 pro。
- 高分評測:在LMSYS大模型競技場中,Grok3以1400分的高分遙遙領(lǐng)先,超越了GPT-4、Claude 3.5 Sonnet和Gemini 2.0 Pro等主流模型。
Grok3以其強大的推理能力、多模態(tài)處理能力和卓越的性能表現(xiàn),展現(xiàn)了在人工智能領(lǐng)域的巨大潛力和創(chuàng)新。
六、DeepSeek VS Grok3
DeepSeek和Grok3在多個方面存在顯著差異。
- DeepSeek采用MoE(Mixture of Experts)架構(gòu),計算效率高,適合數(shù)學、代碼推理任務,而Grok3采用擴展的Transformer架構(gòu)并結(jié)合指令優(yōu)化,擅長社交數(shù)據(jù)分析和多輪問答。
- 在數(shù)學推理方面,Grok3在AIME 2025評測中取得最高分,表現(xiàn)優(yōu)于DeepSeek。
- DeepSeek完全開源,支持企業(yè)私有化部署,適用于本地AI計算方案,而Grok3則深度集成了特斯拉生態(tài),如Optimus機器人和FSD自動駕駛系統(tǒng)。
- 在應用場景上,DeepSeek更適合企業(yè)級服務和本土化應用,如微信AI搜索和政務系統(tǒng)流程優(yōu)化,而Grok3則在科研與復雜推理、創(chuàng)意編程和深度信息檢索方面表現(xiàn)出色。
此外,DeepSeek在中文語義理解準確率上超過Grok3,而Grok3則在多模態(tài)處理方面更具優(yōu)勢,支持圖像、視頻和3D建模分析。
兩個對比過后,Grok3靠大算力產(chǎn)生更好的智能,而deepseek 仍然在開源這條路上探索,所以究竟哪個更好,我想每個人心中都會有自己的答案吧。
本文由 @貝琳_belin 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務
- 目前還沒評論,等你發(fā)揮!
