Deepseek新論文稀疏注意力機制NSA與Grok3

0 評論 1394 瀏覽 7 收藏 13 分鐘
🔗 产品经理专业技能指的是:需求分析、数据分析、竞品分析、商业分析、行业分析、产品设计、版本管理、用户调研等。

DeepSeek團隊在推特上發(fā)布了一篇新的論文,是解決模型在處理長上下文窗口的能力。馬斯克的Grok3模型也在前幾天發(fā)布了;這篇文章,我們就來看看作者對論文的分析,以及對幾個產(chǎn)品的分析與見解。

最近(2025 年 2 月)DeepSeek團隊在推特上發(fā)布了一篇新的論文,這個論文解決的是模型在處理長上下文窗口的能力。曾經(jīng)谷歌發(fā)布過一個論文叫做 《Attention is all you need 》這個Attention 叫做注意力機制,在大模型的處理中,是一個非常關(guān)鍵的技術(shù),就像你讀一本書,你需要全都讀下來,每個字都要看一遍,之前的注意力機制叫做 full attention 就是你需要關(guān)注到每個字和每個字之間的相互關(guān)系。但是這次deepseek 的NSA 原生稀疏注意力機制,它會想一些辦法去略讀,它不需要關(guān)注這篇文章所有詞之間的相關(guān)關(guān)系,而是只要把其中重要的一些,把它看到就好了。

下面讓我們仔細來看看這篇論文

一、論文的核心觀點

論文提出了一種原生稀疏注意力機制(NSA),它將算法創(chuàng)新與硬件對齊優(yōu)化相結(jié)合,以實現(xiàn)高效的長上下文模型。

1、NSA 采用動態(tài)分層稀疏策略,結(jié)合粗粒度標記壓縮和細粒度標記選擇,以保持全局上下文意識和局部精度。這樣既有對全局的理解也能減少冗余的計算。

2、對 GPU 的 Tensor Core 特性設(shè)計高效的計算內(nèi)核,讓NSA 在 64k 長度序列的解碼、正向傳播和反向傳播方面相對于全注意力( full attention)實現(xiàn)了顯著的加速,驗證了其在整個模型生命周期中的效率。

3、實現(xiàn)了端到端訓練,在不犧牲模型性能的情況下減少了預訓練的計算。實驗表明,使用 NSA 預訓練的模型在通用理解、長上下文任務和基于指令的推理方面保持了或超過了全注意力( full attention)模型。同時,大幅降低算力成本。

二、研究方法

NSA 的核心在于其動態(tài)層次化的稀疏策略,具體包括以下幾個方面:

1、令牌壓縮(Token Compression):通過將連續(xù)的鍵(key)或值(value)序列聚合為塊級表示,減少計算負擔。壓縮后的鍵和值能夠捕獲整個塊的信息,從而實現(xiàn)粗粒度的語義信息捕獲。(簡單來說就是:它把所有的token都切成塊,每塊提煉出一些關(guān)鍵信息,相當于做了一個摘要)

2、令牌選擇(Token Selection):在壓縮的基礎(chǔ)上,選擇性地保留一些關(guān)鍵的鍵和值,以保留重要的細粒度信息。這一過程通過塊級選擇策略實現(xiàn),即對鍵和值序列進行空間連續(xù)的塊劃分,并根據(jù)塊的重要性分數(shù)選擇最重要的塊。(簡單來說就是:選擇這些塊里面,這些關(guān)鍵信息里,一些重要的詞的意思。就像這些塊里面的內(nèi)容,我并不是都需要,所以我會選擇一些關(guān)鍵詞,或者是跳過一些不太重要的詞)

3、滑動窗口(Sliding Window):為了處理局部上下文信息,NSA 引入了滑動窗口機制,專門處理局部模式,使模型能夠更有效地學習全局和局部特征。(簡單來說就是:剛才切的這些塊之間可能還會有一些關(guān)聯(lián))

大概就是通過這樣一個算法,讓大模型產(chǎn)生一個稀疏注意力,這樣的話,它不需要關(guān)注全局所有詞之間的相關(guān)關(guān)系,而是只要把其中重要的一些找到就好了。

deepseek團隊用這樣的方法去做了測評,甚至評測出的結(jié)果甚至比全注意力( full attention)還要好,而且它的計算的能耗壓縮是非常顯著的,在這個全流程的過程當中,節(jié)省的成本不只是一點半點

同時他們不但在算法上有優(yōu)化,還在硬件上也有優(yōu)化,硬件也能讓效能有所提升。當然硬件也不是說在英偉達的卡上面做優(yōu)化。

三、實驗

1、實驗設(shè)置

  • 預訓練:使用 27B 參數(shù)的 Transformer 模型,預訓練 260B 個 token。
  • 長文本適應:在 32k 長度文本上進行持續(xù)訓練和監(jiān)督微調(diào) (SFT),以實現(xiàn)長文本適應。
  • 基線模型:Full Attention 模型,以及其他稀疏注意力方法,例如 H2O、infLLM、Quest 和 Exact-Top。

2、評估指標

  • 通用語言評估 (例如,MMLU)
  • 長文本評估 (例如,LongBench)
  • Chain-of-thought 推理評估 (例如,AIME)

3、實驗結(jié)果

  • NSA 在預訓練過程中表現(xiàn)出穩(wěn)定的收斂性,并且在損失值上優(yōu)于全注意力模型。
  • 通用評估:在多個基準測試中,NSA 在知識、推理和編碼任務上均表現(xiàn)出色,甚至在某些指標上超過了全注意力模型。例如,在 DROP 和 GSM8K 測試中,NSA 分別提高了 0.042 和 0.034 的準確率。
  • 長文本評估:NSA 在 64k 上下文的 Needle-in-a-Haystack 測試中,NSA 實現(xiàn)了完美的檢索準確率。在 LongBench 測試中,NSA 的平均得分超過了所有基線方法,包括全注意力模型。
  • 推理評估:在 AIME 基準測試中,NSA 在 8k 和 16k 序列長度上均優(yōu)于全注意力模型,顯示出其在復雜推理任務中的優(yōu)勢。
  • 效率分析:NSA 在訓練和解碼速度上均優(yōu)于全注意力模型:訓練速度:在 64k 序列長度下,NSA 實現(xiàn)了高達 9.0× 的前向速度提升和 6.0× 的反向速度提升。解碼速度:由于減少了 KV 緩存的加載量,NSA 在解碼過程中實現(xiàn)了高達 11.6× 的速度提升。

四、關(guān)鍵結(jié)論

NSA 通過其層次化的稀疏注意力設(shè)計,在保持全注意力模型性能的同時,實現(xiàn)了顯著的計算效率提升。具體來說:

  • 性能:NSA 在多個基準測試中表現(xiàn)出色,尤其是在需要長序列理解和復雜推理的任務中。
  • 效率:NSA 在訓練和推理過程中均實現(xiàn)了顯著的速度提升,特別是在處理長序列時,其優(yōu)勢更加明顯。
  • 可訓練性:NSA 支持端到端的訓練,減少了預訓練計算成本,同時保持了模型性能。

五、Grok3 是什么

Grok3是由埃隆·馬斯克旗下的xAI公司開發(fā)的第三代大語言模型,于2025年2月17日正式發(fā)布。Grok3 目前有最大的算力集群,它是用20萬塊H100來訓練出來的大模型,它的進展速度是非??斓?,在非常的時間內(nèi),就提升到了鼻尖 OpenAI 01 03等等這些模型的水平,甚至在這個數(shù)學,編程能力方面是有超越的。

但是 Grok3 在算力的消耗方面、成本方面都是是非常巨大的,是deepseek v1的 263倍。所以巨大的算力是Grok3的一個典型的特征,在發(fā)布會中,也提到了多模態(tài)的能力,也結(jié)合了應用作了一些優(yōu)化,目前Grok3最大的這個模型還在訓練中。接下來還會有更多的測評出來。

以下是其主要特點和功能:

1、訓練與硬件

  • 超強算力:Grok3的訓練得益于xAI公司的Colossus超級計算機,該系統(tǒng)配備了10萬個NVIDIA H100 GPU,提供了超過2億個GPU小時的計算資源,計算能力是上一代Grok2的十倍。
  • 合成數(shù)據(jù)訓練:Grok3在合成數(shù)據(jù)的基礎(chǔ)上進行訓練,能夠通過重讀數(shù)據(jù)來反思所犯的錯誤,從而達到邏輯上的一致性。

2、核心功能

  • 思維鏈推理能力:Grok3引入了“思維鏈”(Chain of Thought)推理機制,模仿人類的認知過程,使其在面對復雜查詢時能夠以更連貫和有邏輯的方式反應。
  • 多模態(tài)能力:Grok3具備強大的多模態(tài)能力,能夠同時處理圖像、視頻和3D動畫數(shù)據(jù),展示了其強大的創(chuàng)作能力。
  • DeepSearch模式:該模式能夠搜索互聯(lián)網(wǎng)和X平臺(前Twitter)的內(nèi)容,用AI進行深度研究,分析這些信息,并為用戶提供精確的搜索結(jié)果和詳細答案。
  • Big Brain模式:此模式使用更高的計算資源和更深入的推理過程,旨在處理和解決更復雜的問題。

3、性能表現(xiàn)

  • 多項任務領(lǐng)先性能:在數(shù)學推理、科學邏輯推理和代碼編寫等多個基準測試中,Grok3超過了競爭對手,如DeepSeek-v3、GPT-4o和Gemini-2 pro。
  • 高分評測:在LMSYS大模型競技場中,Grok3以1400分的高分遙遙領(lǐng)先,超越了GPT-4、Claude 3.5 Sonnet和Gemini 2.0 Pro等主流模型。

Grok3以其強大的推理能力、多模態(tài)處理能力和卓越的性能表現(xiàn),展現(xiàn)了在人工智能領(lǐng)域的巨大潛力和創(chuàng)新。

六、DeepSeek VS Grok3

DeepSeek和Grok3在多個方面存在顯著差異。

  1. DeepSeek采用MoE(Mixture of Experts)架構(gòu),計算效率高,適合數(shù)學、代碼推理任務,而Grok3采用擴展的Transformer架構(gòu)并結(jié)合指令優(yōu)化,擅長社交數(shù)據(jù)分析和多輪問答。
  2. 在數(shù)學推理方面,Grok3在AIME 2025評測中取得最高分,表現(xiàn)優(yōu)于DeepSeek。
  3. DeepSeek完全開源,支持企業(yè)私有化部署,適用于本地AI計算方案,而Grok3則深度集成了特斯拉生態(tài),如Optimus機器人和FSD自動駕駛系統(tǒng)。
  4. 在應用場景上,DeepSeek更適合企業(yè)級服務和本土化應用,如微信AI搜索和政務系統(tǒng)流程優(yōu)化,而Grok3則在科研與復雜推理、創(chuàng)意編程和深度信息檢索方面表現(xiàn)出色。

此外,DeepSeek在中文語義理解準確率上超過Grok3,而Grok3則在多模態(tài)處理方面更具優(yōu)勢,支持圖像、視頻和3D建模分析。

兩個對比過后,Grok3靠大算力產(chǎn)生更好的智能,而deepseek 仍然在開源這條路上探索,所以究竟哪個更好,我想每個人心中都會有自己的答案吧。

本文由 @貝琳_belin 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!
专题
16429人已学习12篇文章
本专题的文章分享了产品经理需要知晓的API接口知识。
专题
17381人已学习13篇文章
出于文本易读性方面的考虑许多app都做了深色模式,本专题的文章分享了深色模式的设计指南。
专题
12495人已学习12篇文章
现如今,越来越多的企业开始重视私域,很多的企业都对私域的发展进行了布局。本专题的文章分享了如何搭建私域模型。
专题
15635人已学习12篇文章
用户增长是一个复杂体系,涉及产品、运营、市场、技术等多个环节的相互配合,本专题的文章分享了用户增长方法论。
专题
14459人已学习13篇文章
交互设计是用户与产品以及他们使用的服务之间建立的有意义的关系。