久久久久久久曰本精品免费看,小辣椒精品福利视频导航

<dl id="rz6nt"><noscript id="rz6nt"></noscript></dl>

<noscript id="rz6nt"></noscript>

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

開通會(huì)員

發(fā)布

注冊(cè) | 登錄

十個(gè)關(guān)鍵詞，帶你全面看懂DeepSeek！

2025-02-13

0 評(píng)論 2606 瀏覽 13 收藏

🔗 产品经理专业技能指的是：需求分析、数据分析、竞品分析、商业分析、行业分析、产品设计、版本管理、用户调研等。

DeepSeek作為當(dāng)下熱門的人工智能大模型，其強(qiáng)大的推理能力和高效的訓(xùn)練機(jī)制引發(fā)了廣泛關(guān)注。然而，許多人對(duì)其背后的實(shí)現(xiàn)原理和技術(shù)創(chuàng)新知之甚少。這篇文章，我們看看作者的分享。

DeepSeek的火熱仍在持續(xù)。

相信很多讀者在使用DeepSeek的時(shí)候，都會(huì)默認(rèn)開啟深度思考功能，風(fēng)叔在閱讀DeepSeek思考過程上的時(shí)間，甚至比最終回答還要多。

這是風(fēng)叔在使用其他大模型時(shí)，從來沒有過的體驗(yàn)。通過思考過程，你能真實(shí)感受到DeepSeek確實(shí)是在深度推理和反思，而非從四面八方獲取各種零碎信息之后進(jìn)行總結(jié)輸出。

這樣的推理效果也激發(fā)了風(fēng)叔進(jìn)一步探索DeepSeek的念頭，經(jīng)過這段時(shí)間的深度研究，風(fēng)叔總結(jié)出來十個(gè)關(guān)鍵詞，帶你全面看懂DeepSeek。

相信大家在讀完這篇文章之后，會(huì)對(duì)下面幾個(gè)問題有比較清晰的答案：

DeepSeek的實(shí)現(xiàn)原理是什么？
為什么DeepSeek具備如此強(qiáng)大的推理能力？
為什么DeepSeek能大幅降低訓(xùn)練成本？
DeepSeek會(huì)對(duì)英偉達(dá)造成怎樣的沖擊？

風(fēng)叔的研究方法主要是閱讀DeepSeek最重要的兩篇論文，《DeepSeek-V3 Technical Report》、《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》，以及研究DeepSeek在Github上的開源代碼。

關(guān)鍵詞一：多頭潛在注意力MLA

多頭潛在注意力（Multi-head Latent Attention），是DeepSeek在推理成本上大幅降低的關(guān)鍵創(chuàng)新。

在傳統(tǒng)的Transformer架構(gòu)中，通過多頭注意力機(jī)制（Multi-head Attention），模型可以同時(shí)關(guān)注輸入的不同部分，每個(gè)attention head都會(huì)獨(dú)立學(xué)習(xí)輸入序列中的特征。

B端究竟需要什么样的产品经理？

B端产品经理都是以提升供应侧的工作效率为目的，所以B端需求主要是以业务问题为导向。这个是B端产品比较重要的一点，B端产品是服务于一个主体 ...

但是當(dāng)序列長度顯著增加時(shí)，鍵值（KV）緩存也會(huì)大幅增加，從而帶來巨大的內(nèi)存負(fù)擔(dān)。

為了解決這個(gè)問題，DeepSeek創(chuàng)新性地提出了多頭潛在注意力MLA機(jī)制。通過低秩聯(lián)合壓縮技術(shù)，將多個(gè)輸入向量壓縮為一個(gè)隱藏向量（Latent Vector），從而減少了93.3%的鍵值緩存，如下圖右下部分所示。

同時(shí)，DeepSeek還通過Multi-token Prediction機(jī)制，同時(shí)預(yù)測(cè)多個(gè)token，而非逐個(gè)token進(jìn)行預(yù)測(cè)，大幅提升了模型預(yù)測(cè)的效率。

關(guān)鍵詞二：專家混合模型MOE

專家混合模型，是一種將多個(gè)專家模型組合在一起，以提高模型性能的架構(gòu)。

MOE包括多個(gè)專家網(wǎng)絡(luò)和一個(gè)門控網(wǎng)絡(luò)。每個(gè)專家網(wǎng)絡(luò)都是獨(dú)立的模型，負(fù)責(zé)處理特定領(lǐng)域的問題。門控網(wǎng)絡(luò)的作用則是根據(jù)輸入來確定每個(gè)專家網(wǎng)絡(luò)的權(quán)重，從而路由給合適的模型進(jìn)行處理。

在DeepSeek模型中，有一個(gè)專門的MOE層，包括了動(dòng)態(tài)路由機(jī)制和專家共享機(jī)制，如下圖右上部分所示。

通過動(dòng)態(tài)路由機(jī)制，每次輸入會(huì)選擇性地激活部分專家模型，而非同時(shí)激活所有專家模型，從而提升計(jì)算的效率。同時(shí)，通過專家共享機(jī)制，在不同層之間可以共享部分專家模型的參數(shù)，從而減少模型冗余。

關(guān)鍵詞三：負(fù)載均衡優(yōu)化

MOE架構(gòu)其實(shí)早在2021年就提出來了，但一直沒有特別好的實(shí)踐案例。因?yàn)槿绻肕oE架構(gòu)去訓(xùn)練一個(gè)超大的模型，存在計(jì)算復(fù)雜度高、訓(xùn)練難度大等問題，其中最大的挑戰(zhàn)是負(fù)載均衡。

為了解決這個(gè)問題，DeepSeek提出了一種非常創(chuàng)新的策略，Auxiliaray-Loss-Free Load Balancing。

這個(gè)策略的核心是，當(dāng)給一個(gè)輸入token計(jì)算該路由到哪個(gè)專家模型的時(shí)候，會(huì)加上一個(gè)專家Bias。如果發(fā)現(xiàn)某個(gè)專家模型處于過載狀態(tài)，就會(huì)降低它的Bias；如果發(fā)現(xiàn)某個(gè)專家模型處于閑置狀態(tài)，就會(huì)增加它的Bias。

這個(gè)思想和服務(wù)器集群的負(fù)載均衡是相似的，通過這種策略讓多個(gè)專家模型實(shí)現(xiàn)均衡，從而提升整體模型的利用率。

關(guān)鍵詞四：模型蒸餾

模型蒸餾，是將一個(gè)復(fù)雜且性能優(yōu)異的“教師模型”的知識(shí)，遷移到一個(gè)簡單的“學(xué)生模型”，使學(xué)生模型在保持較高性能的同時(shí)，還能顯著減少模型的參數(shù)規(guī)模和計(jì)算成本。

模型蒸餾的核心思想是利用教師模型輸出的軟標(biāo)簽（即概率分布），而非硬標(biāo)簽，來指導(dǎo)學(xué)生模型的訓(xùn)練。這樣，學(xué)生模型不僅能學(xué)習(xí)到數(shù)據(jù)的類別信息，還能夠捕捉到類別之間的相似性和關(guān)系，從而提升其泛化能力。

模型蒸餾主要包括四步驟：

訓(xùn)練教師模型：首先使用Transformer模型，訓(xùn)練一個(gè)性能優(yōu)異但通常較為龐大的教師模型。
生成軟標(biāo)簽：使用教師模型對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行預(yù)測(cè)，獲得每個(gè)樣本的概率分布。
訓(xùn)練學(xué)生模型：設(shè)計(jì)一個(gè)較小的學(xué)生模型，并使用軟標(biāo)簽以及硬標(biāo)簽共同訓(xùn)練。
優(yōu)化與調(diào)整：通過調(diào)整溫度參數(shù)、損失函數(shù)權(quán)重等超參數(shù)，優(yōu)化學(xué)生模型的性能，使其盡可能接近教師模型。

DeepSeek是完全原創(chuàng)還是蒸餾了一部分其他模型，目前眾說紛紜，但風(fēng)叔認(rèn)為這個(gè)并不重要。

第一個(gè)做出蒸汽機(jī)的是英國人紐可門，用來進(jìn)行礦井抽水，效率非常低。瓦特在修理紐可門蒸汽機(jī)時(shí)，進(jìn)行了重大創(chuàng)新和改進(jìn)，發(fā)明了瓦特蒸汽機(jī)。從某種程度上來說，瓦特也是“蒸餾”了紐可門蒸汽機(jī)，但并不能因此否認(rèn)瓦特的貢獻(xiàn)，否則科技史上的那些創(chuàng)新都要被打上“蒸餾”的標(biāo)簽了。

關(guān)鍵詞五：純強(qiáng)化學(xué)習(xí)

傳統(tǒng)訓(xùn)練AI推理能力的方法，通常是先通過監(jiān)督微調(diào)SFT，讓初始模型在大量的思維鏈（COT）訓(xùn)練數(shù)據(jù)集上，通過多個(gè)SFT周期進(jìn)行訓(xùn)練。再用獎(jiǎng)勵(lì)模型讓模型更新自己的策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)，以最大化預(yù)期獎(jiǎng)勵(lì)，如下圖所示。

DeepSeek則完全拋開了利用大量思維鏈COT模板進(jìn)行監(jiān)督微調(diào)的范式，直接進(jìn)行強(qiáng)化學(xué)習(xí)，依靠簡單的獎(jiǎng)懲信號(hào)對(duì)模型進(jìn)行優(yōu)化，大幅降低訓(xùn)練消耗。

DeepSeek-R1只用了一套最簡單的獎(jiǎng)勵(lì)系統(tǒng)，來激發(fā)AI的推理能力。

第一，是準(zhǔn)確性獎(jiǎng)勵(lì)。評(píng)估方法非常簡單，正確就加分，錯(cuò)誤就扣分。比如在具有確定性結(jié)果的數(shù)學(xué)問題中，模型需要以特定格式（<answer></answer>）提供最終答案。

第二，是格式獎(jiǎng)勵(lì)。該獎(jiǎng)勵(lì)模型強(qiáng)制要求模型將思考過程輸出在<think></think>之間，符合格式要求就加分，不符合要求就扣分。

然后讓AI在GRPO（Group Relative Policy Optimization）的規(guī)則下自我采樣、比較和優(yōu)化。

關(guān)鍵詞六：GRPO

GRPO，全稱是Group Relative Policy Optimization，是一種針對(duì)群體智能進(jìn)行策略優(yōu)化的算法。

顧名思義，該算法只考慮群體之間的相對(duì)關(guān)系和影響，使得整個(gè)群體在環(huán)境交互過程中，實(shí)現(xiàn)某種整體目標(biāo)或優(yōu)勢(shì)。

DeepSeek是使用GRPO算法的核心流程如下

對(duì)于一個(gè)問題，模型生成5個(gè)不同的解答步驟；
檢查每個(gè)解答的準(zhǔn)確性，包括輸出結(jié)果和格式，并給出獎(jiǎng)勵(lì)分?jǐn)?shù)，比如正確得1分，錯(cuò)誤得0分
計(jì)算相對(duì)優(yōu)勢(shì)，包括群體的平均獎(jiǎng)勵(lì)（比如5個(gè)回答對(duì)了3個(gè)，平均獎(jiǎng)勵(lì)為0.6），計(jì)算每個(gè)回答的優(yōu)勢(shì)（優(yōu)勢(shì) = 回答獎(jiǎng)勵(lì) – 0.6）
更新策略模型，增加優(yōu)勢(shì)為正的回答生成概率，減少優(yōu)勢(shì)為負(fù)的回答生成概率

DeepSeek為什么會(huì)選擇GRPO算法，而不是大家更熟悉的PPO算法呢？

首先，PPO算法依賴價(jià)值模型估計(jì)狀態(tài)價(jià)值，從而幫助計(jì)算優(yōu)勢(shì)函數(shù)。但是因?yàn)檎Z言的狀態(tài)空間巨大且復(fù)雜，很難為語言構(gòu)建合理的價(jià)值模型。而GPRO算法只對(duì)輸出的語言內(nèi)容進(jìn)行相對(duì)優(yōu)勢(shì)計(jì)算，不需要設(shè)計(jì)價(jià)值模型。

其次，PPO算法需要訓(xùn)練獎(jiǎng)勵(lì)模型進(jìn)行評(píng)估，而GRPO算法使用基于規(guī)則的獎(jiǎng)勵(lì)，通過規(guī)則直接評(píng)估回答的準(zhǔn)確性，不需要訓(xùn)練獎(jiǎng)勵(lì)模型。

這也是DeepSeek能大幅降低訓(xùn)練成本的核心原因之一。

關(guān)鍵詞七：過程獎(jiǎng)勵(lì)模型PRM

在傳統(tǒng)獎(jiǎng)勵(lì)模型中，AI主要根據(jù)任務(wù)的最終結(jié)果獲得獎(jiǎng)勵(lì)，但是AI為了追求最終獎(jiǎng)勵(lì)，可能采取一些短視或不合理的行為。

而過程獎(jiǎng)勵(lì)模型（Process Reward Model）會(huì)對(duì)AI在整個(gè)任務(wù)執(zhí)行過程中的步驟進(jìn)行評(píng)估，根據(jù)這些中間步驟的質(zhì)量、合理性、與預(yù)期策略的相符程度等因素來給予獎(jiǎng)勵(lì)。

DeepSeek在訓(xùn)練模型的過程中，采用了過程獎(jiǎng)勵(lì)模型。這種獎(jiǎng)勵(lì)策略能夠讓AI更明確每一步的正確行為方向，有助于AI更快、更穩(wěn)定地學(xué)習(xí)到最優(yōu)策略。

關(guān)鍵詞八：長思維鏈冷啟動(dòng)數(shù)據(jù)

由于DeepSeek-V3完全通過獎(jiǎng)懲信號(hào)進(jìn)行模型優(yōu)化，沒有任何經(jīng)過人類指示的標(biāo)準(zhǔn)答案作為參考，因此導(dǎo)致了“可讀性差”的問題，即模型的思維過程可能難以被人理解。為了解決這個(gè)問題，DeepSeek-R1引入了冷啟動(dòng)數(shù)據(jù)。

第一階段是冷啟動(dòng)：通過數(shù)千條高質(zhì)量的長思維鏈（Long-COT）數(shù)據(jù)進(jìn)行模型微調(diào)，用于提升模型的初始推理能力和回答格式，為后續(xù)的強(qiáng)化學(xué)習(xí)提供良好的初始狀態(tài)。

第二階段是以推理為導(dǎo)向的強(qiáng)化學(xué)習(xí)：通過GRPO算法，以DeepSeek-V3為基礎(chǔ)進(jìn)行強(qiáng)化學(xué)習(xí)，增強(qiáng)模型在推理任務(wù)上的準(zhǔn)確性。

第三階段是拒絕抽樣和監(jiān)督微調(diào)：將推理任務(wù)數(shù)據(jù)和非推理任務(wù)數(shù)據(jù)混合，構(gòu)建新的訓(xùn)練數(shù)據(jù)集，使用混合數(shù)據(jù)對(duì)策略模型進(jìn)行再微調(diào)，從而進(jìn)一步提升模型的推理能力，并且擴(kuò)展模型在非推理任務(wù)上的能力。

第四階段是全面場(chǎng)景的強(qiáng)化學(xué)習(xí)：對(duì)于推理任務(wù)，繼續(xù)使用基于規(guī)則的獎(jiǎng)勵(lì)系統(tǒng)；對(duì)于非推理任務(wù)，結(jié)合RLHF（人類反饋強(qiáng)化學(xué)習(xí)），對(duì)齊人類偏好。

關(guān)鍵詞九：PTX

除了大幅降低GPU資源消耗之外，DeepSeek還嚴(yán)重動(dòng)搖了英偉達(dá)的生態(tài)基礎(chǔ)，CUDA。

CUDA，全稱是Compute Unified Device Architecture，是英偉達(dá)推出的并行計(jì)算平臺(tái)和編程模型，允許開發(fā)者使用C、C++語言在英偉達(dá)GPU上進(jìn)行通用計(jì)算。CUDA提供了非常多的API和工具，讓開發(fā)者可以非常方便地將計(jì)算任務(wù)分配到GPU的多個(gè)線程并行計(jì)算

因此，CUDA成為開發(fā)者繞不開的平臺(tái)，是英偉達(dá)的關(guān)鍵護(hù)城河。

而DeepSeek的實(shí)踐證明，CUDA構(gòu)建的堡壘也是可以被攻破的。通過PTX（Parallel Thread Execution，可以獨(dú)立于具體的GPU硬件架構(gòu)，介于高級(jí)編程語言和底層GPU機(jī)器碼之間）匯編直接操作硬件層，可以獲得更高的計(jì)算效率。

對(duì)英偉達(dá)致命的是，很多國產(chǎn)芯片都支持PTX，英偉達(dá)的CUDA護(hù)城河受到嚴(yán)重沖擊。

在繞開CUDA的同時(shí)，DeepSeek還順手沖擊了英偉達(dá)的另一個(gè)關(guān)鍵護(hù)城河，NVLink。NVLINK是英偉達(dá)推出的一種專門為GPU與CPU之間高速數(shù)據(jù)傳輸所設(shè)計(jì)的互聯(lián)技術(shù)，提供更寬的帶寬和更低的延時(shí)，可以極大提升GPU密集型應(yīng)用的性能，比如深度學(xué)習(xí)、圖像計(jì)算、大數(shù)據(jù)分析。

而DeepSeek通過實(shí)踐證明，NVLink也不是必須的，DPU完全可以替代。

關(guān)鍵詞十：杰文斯悖論

上圖是英偉達(dá)的股價(jià)在最近一個(gè)多月的表現(xiàn)，自從DeepSeek R1發(fā)布之后，英偉達(dá)先是大幅下跌，隨后就開始了反復(fù)的震蕩。

大家可能會(huì)疑惑，既然DeepSeek給英偉達(dá)造成了如此巨大的沖擊，為什么英偉達(dá)從整體來看并未下降多少呢？

背后的原因可能是“杰文斯悖論”，由 19 世紀(jì)英國經(jīng)濟(jì)學(xué)家威廉?斯坦利?杰文斯在 1865 年的著作《煤炭問題》中首次提出。

19 世紀(jì)工業(yè)革命期間，蒸汽機(jī)熱效率大幅提升，每單位煤炭可產(chǎn)生更多動(dòng)力。市場(chǎng)原本認(rèn)為煤炭消耗會(huì)大幅減少，但由于蒸汽機(jī)效率提高，其應(yīng)用范圍迅速擴(kuò)展到鐵路、紡織、礦業(yè)等領(lǐng)域，反而導(dǎo)致煤炭總需求量激增。

同樣的，DeepSeek帶來了推理成本的大幅下降，大家第一反應(yīng)會(huì)認(rèn)為這會(huì)減少GPU的算力消耗。但由于推理效率提高，AI應(yīng)用場(chǎng)景會(huì)迅速擴(kuò)張，甚至以前沒有能力大量采購GPU的中小企業(yè)，也能參與這場(chǎng)AI盛宴，最終導(dǎo)致GPU總需求增加。

這里對(duì)于英偉達(dá)的影響在于，DeepSeek向世人證明了，即使不需要非常高端的GPU，也能進(jìn)行高效的模型推理。因此，像華為昇騰、AMD等企業(yè)，會(huì)分走一部分英偉達(dá)的市場(chǎng)份額。

本文由人人都是產(chǎn)品經(jīng)理作者【風(fēng)叔】，微信公眾號(hào)：【風(fēng)叔云】，原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自 Unsplash，基于 CC0 協(xié)議。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App

產(chǎn)品總監(jiān)，公眾號(hào)：風(fēng)叔云

42篇作品 133855總閱讀量

宏觀視角：聊聊AIGC對(duì)設(shè)計(jì)行業(yè)的影響與啟發(fā)

08-294555 瀏覽

宏觀視角：聊聊AIGC對(duì)設(shè)計(jì)行業(yè)的影響與啟發(fā)

90%品牌1號(hào)位，沒讓銷售過上好日子

05-044242 瀏覽

90%品牌1號(hào)位，沒讓銷售過上好日子

业务篇：B端产品经理面试，注意这些细节

刚刚

凈推薦值(NPS)并不能代表客戶體驗(yàn)，為什么企業(yè)還要設(shè)計(jì)為北極星指標(biāo)？

01-053045 瀏覽

凈推薦值(NPS)并不能代表客戶體驗(yàn)，為什么企業(yè)還要設(shè)計(jì)為北極星指標(biāo)？

GPT啟示篇-學(xué)校教育的變革與思考

04-018541 瀏覽

GPT啟示篇-學(xué)校教育的變革與思考

如何搭建SaaS商城商戶系統(tǒng)中的「會(huì)員管理」？

07-178302 瀏覽

如何搭建SaaS商城商戶系統(tǒng)中的「會(huì)員管理」？

成都闭门会 | AI 驱动产品创新：从场景洞察到落地实践，深聊2025产品进化论

成都闭门会 | AI 驱动产品创新：从场景洞察到落地实践，深聊2025产品进化论

推荐

評(píng)論

目前還沒評(píng)論，等你發(fā)揮！

案例分析：同样是B端产品经理，为什么你接定制化需求这么难？

一個(gè)案例，看懂?dāng)?shù)據(jù)分析全流程

07-1310504 瀏覽
社交媒體圍攻BOSS直聘

06-095230 瀏覽
音視頻互動(dòng)在金融行業(yè)的應(yīng)用分析

07-203508 瀏覽

29202人已学习16篇文章

有效的页面操作反馈设计指南

系统如何恰当、清晰、及时地传达给用户操作的结果或者操作对象状态的变更？本专题的文章提供了有效的页面操作反馈设计指南。

15269人已学习16篇文章

如何做活动运营？

随着互联网时代的蓬勃发展，互联网平台活动运营对于互联网企业业务十分重要。本专题的文章分享了如何做活动运营。

42816人已学习20篇文章

内容付费的玩法你知多少？

内容付费的现状、趋势和未来。

13224人已学习12篇文章

需求管理那些事儿

需求管理，也是产品运营人工作中非常重要的一个任务。本专题的文章分享了如何做需求管理。

16923人已学习11篇文章

国外的产品经理，都在关注什么

13764人已学习12篇文章

供应链系统设计指南

本专题的文章分享了供应链系统设计指南。

<rp id="fjbdo"><dfn id="fjbdo"></dfn></rp>