DeepSeek低調(diào)宣稱小更新,結(jié)果用2折價格達到R1水平

知危
1 評論 1473 瀏覽 1 收藏 9 分鐘
🔗 产品经理的职业发展路径主要有四个方向:专业线、管理线、项目线和自主创业。管理线是指转向管理岗位,带一个团队..

DeepSeek 發(fā)布了其 V3-0324 模型,雖然官方將其描述為“小版本迭代”,但實際表現(xiàn)卻遠超預(yù)期。本文將深入探討 DeepSeek-V3-0324 的技術(shù)細節(jié)、性能表現(xiàn)以及其對商業(yè)模型的潛在影響,分析開源模型如何通過低成本和高性能推動行業(yè)變革。

昨晚,DeepSeek 無預(yù)警發(fā)布 DeepSeek-V3-0324 模型,此次更新雖被官方低調(diào)地稱為 “ 小版本迭代 ”,但實測表現(xiàn)遠超預(yù)期

該模型尤其在代碼生成、前端開發(fā)等方面顯著提升,甚至部分能力比肩 Claude 3.7 Sonnet,引發(fā)全球 AI 社區(qū)熱議。

在大模型競技場測試 KCORES 中,DeepSeek-V3-0324 代碼能力得分 328.3 分,超越普通版 Claude 3.7 Sonnet( 322.3 分 ),接近 Claude 3.7 Sonnet 的思維鏈版本( 334.8分 )。

在 Aider LLM Leaderboard 排行榜中,DeepSeek-V3-0324 在多語言基準測試中得分為 55%,比 V3 有顯著提升,比 R1 略低一些。在非思考/推理模型中,它排名第二,僅次于 Claude Sonnet 3.7 。

測試數(shù)據(jù)還表明,在表現(xiàn)良好的模型中,DeepSeek-V3-0324 花費是最低的,比 R1 還低很多,只需大約 1/5,擁有高到令人發(fā)指的性價比。

另外,Claude Sonnet 3.7 Thinking 的花費是 DeepSeek-V3-0324 的 33 倍, o1 是 DeepSeek-V3-0324 的 167 倍。

目前在 DeepSeek 官網(wǎng),只需要關(guān)閉 “ 深度思考 ” 選項即可使用新模型。

Hugging Face 上也提供了開源下載,下載地址:https://huggingface.co/deepseek-ai/DeepSeek-V3-0324/tree/main

DeepSeek-V3-0324 包含 685B 參數(shù),較前代 V3 小幅增加,采用 MoE( 專家混合 )架構(gòu),激活參數(shù) 370 億。網(wǎng)友實測 DeepSeek-V3-0324 支持 4-bit 量化,可在 512GB M3 Ultra Mac上以 20+ token/s 速度運行,磁盤占用僅352GB。新模型采用與 DeepSeek-R1 相同的MIT許可,允許自由修改、商用及模型蒸餾,比上一版 V3 更開放。

從測評結(jié)果來看,DeepSeek-V3-0324 前端開發(fā)表現(xiàn)突出,媲美頂級商業(yè)模型。

X 博主 Deepanshu Sharma 僅用簡單提示詞( “ 用 HTML/CSS/JS 制作現(xiàn)代化登錄頁面 ” ),就能讓新版 V3 一鍵生成 800+ 行代碼,且無錯誤運行,效果媲美 Claude 3.7 Sonnet 。

在經(jīng)典彈跳小球測試中,DeepSeek V3-0324 不僅比 R1 表現(xiàn)更好,博主 Deepanshu Sharma 還認為它生成了最流暢的動作。

在測試中 o3-mini 最初表現(xiàn)看起來不錯,但并沒有正確遵循物理原理,尤其是在視頻中間,球?qū)χ亓]有做出正確的反應(yīng)。

Deepanshu Sharma 評價 DeepSeek V3-0324 “ 表現(xiàn)得像唯一排名第一的非推理模型 ”。

據(jù) X 網(wǎng)友 karminski-牙醫(yī)介紹,在升級版的 20 小球物理模擬測試中,DeepSeek V3-0324 相比 V3 也表現(xiàn)更優(yōu)。

而新版 V3 與頭部推理模型的比較情況如下:

在火星任務(wù)測試中,DeepSeek-V3-0324 提升巨大,星球、圖例渲染正確,發(fā)射和返回的窗口計算也有很大進步。

結(jié)合 UI 設(shè)計和物理模擬,X 網(wǎng)友 Parul Pandey 還用 DeepSeek-V3-0324 生成了一個可交互物理模擬界面,通過 AnyChat 使用 DeepSeek-V3-0324 模擬水分子。

實際運行中,可以通過溫度滑塊提升溫度,讓分子呈現(xiàn)越來越快的前進和碰撞反彈運動。

提示詞:創(chuàng)建一個交互式模擬,顯示水分子形成和斷裂氫鍵的過程,同時顯示溫度滑塊。

對于本次升級的技術(shù)難度,有 Reddit 網(wǎng)友 pigeon57434 給出了比較中立的解讀:不用太驚嘆本次 V3 升級的幅度,因為 RL ( 強化學(xué)習(xí),Reinforcement Learning )潛力極大。以 QwQ-32B 為例,盡管它實際上小了 20 倍,但它在某些方面的表現(xiàn)幾乎與 R1 一樣好,甚至比 R1 更好。它能那么強,只是因為擴展推理模型還有很大空間,甚至不需要新的基礎(chǔ)模型。我敢打賭,使用更復(fù)雜的技術(shù),可以輕松獲得基于 DeepSeek-V2.5 的推理模型來擊敗 R1,更不用說這個新版本的 V3 了。

總的來說,這樣的免費+高性能的組合將對 OpenAI、Anthropic 等閉源商業(yè)模型形成越來越大的壓力。

DeepSeek 此次更新再次證明開源模型的爆發(fā)力,不僅技術(shù)指標逼近頂級商業(yè)AI,更以低成本、高自由度推動行業(yè)變革。

可以合理推測,此次更新有可能是R2的前置版本,類似去年 V3 ( 24.12.16 )→R1 ( 25.01.20 ) 的發(fā)布節(jié)奏,或許幾周內(nèi)我們可能迎來更強的推理模型 R2。

隨著 R2 的臨近,全球 AI 競爭格局或?qū)⒂瓉硇乱惠喯磁啤?/strong>

參考資料:

https://github.com/KCORES/kcores-llm-arena

https://x.com/paulgauthier/status/1904304052500148423

https://x.com/deepanshusharmx/status/1904224760399282587

https://x.com/deepanshusharmx/status/1904363892899492141

https://x.com/karminski3/status/1904212084306653648

https://x.com/pandeyparul/status/1904352867433242926

https://www.reddit.com/r/LocalLLaMA/comments/1jip611/deepseek_releases_new_v3_checkpoint_v30324/

https://aider.chat/docs/leaderboards/

https://x.com/awnihannun/status/1904177084609827054

撰文:流大古 編輯:大餅

本文由人人都是產(chǎn)品經(jīng)理作者【知?!浚⑿殴娞枺骸局!?,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 看完文章,直觀感覺到:DeepSeek-V3-0324模型以顯著提升的性能和極高的性價比,展現(xiàn)了開源AI模型的強大潛力,對閉源商業(yè)模型構(gòu)成了有力競爭,推動了AI行業(yè)的快速發(fā)展與變革。

    來自山東 回復(fù)
专题
19948人已学习14篇文章
好的用户成长体系可以促进用户活跃、增强用户粘性、留住用户和帮助企业更好地了解用户对产品的使用情况。本专题的文章提供了搭建用户成长体系的思路。
专题
14316人已学习13篇文章
作为一名运营,需要持续对自己的经验进行总结并不断更新迭代。本专题的文章分享了运营方法论。
专题
15508人已学习12篇文章
本专题的文章分享了交互设计文档的撰写指南。
专题
12674人已学习13篇文章
产品经理在日常工作中,除了要跟进和把控产品的整体流程以外,也要对产品后续的销售策略进行规划;销售策略的规划可以让产品经理对于用户的场景以及体验等更加熟悉。本专题的文章分享了产品的销售策略。
专题
15065人已学习11篇文章
SWOT分析法是互联网人最常用的分析模型之一,将企业内外部条件各方面内容进行综合和概括,进而分析组织的优劣势,面临的机会和威胁的一种方法。本专题的文章分享了如何做SWOT分析。
专题
15361人已学习10篇文章
再好的产品,没有优质的推广渠道加持和App投放增长的方法,也很难实现有效传播和增长。本专题的文章分享了App投放推广指南。