日韩中文字幕在线亚洲一区 ,国产无套内谢对白视频,无码中文字幕久久免费

搜索

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標(biāo)識

開通會員

發(fā)布

注冊 | 登錄

DeepSeek-V3深夜驚爆上新！代碼數(shù)學(xué)飆升劍指GPT-5，一臺Mac可跑

新智元

2025-03-25

0 評論 1580 瀏覽 0 收藏

🔗 技术知识、行业知识、业务知识等，都是B端产品经理需要了解和掌握的领域相关的知识，有助于进行产品方案设计和评估

685B的DeepSeek-V3新版本，就在昨夜悄悄上線了。參數(shù)量685B的V3，代碼數(shù)學(xué)推理再次顯著提升，甚至代碼追平Claude 3.7，網(wǎng)友們實測后大呼強到離譜！有人預(yù)測說，按照此前的節(jié)奏，DeepSeek-R2大概率幾周內(nèi)就將上線。

昨晚，DeepSeek-V3悄然升級！新模型版本為DeepSeek-V3-0324，參數(shù)量為6850億，相較上個版本參數(shù)增幅不大（6710億）。

從發(fā)布時間和技術(shù)特點來看，DeepSeek-V3-0324，很可能是DeepSeek-R2的基礎(chǔ)架構(gòu)。

所以按照DeepSeek一貫的產(chǎn)品發(fā)布節(jié)奏（先推出基礎(chǔ)模型，幾周后再發(fā)布專門的推理增強版）來看，DeepSeek-R2很可能在幾周后就將上線！

升級后的V3在代碼、數(shù)學(xué)推理能力上，得到顯著提升。尤其是代碼領(lǐng)域，不少網(wǎng)友直呼「眼前一亮」。

相較于上一版，從一個球在超立方體彈跳的Python腳本，即可看出V3代碼性能的改善。

甚至，它還能解鎖Claude 3.7 Sonnet很多玩法，代碼可以與之正面較量。

值得一提的是，DeepSeek V3另一大亮點在于采用MIT開源協(xié)議，上個版本還是自定義許可證。

做了8年产品经理后，我是这么看产品经理的

我个人是从非常初级的产品经理做起，再到负责一个大产品的项目管理，现在有幸跳出了日常基础的工作更多的去看产品的PMF，product strategy...

查看详情 >

這不僅可以自由修改、分發(fā)模型，還支持模型蒸餾、商業(yè)化應(yīng)用。

模型文件總計641GB，主要以model-00035-of-000163.safetensors形式存在

685B雖大，但也能在消費級設(shè)備上跑起來。

這不，蘋果機器學(xué)習(xí)工程師Awni Hannun就基于MLX框架和4-bit量化，在512GB M3 Ultra實現(xiàn)了超過20 token/s的運行速度。

這種量化方式直接將模型的磁盤占用空間減少到352GB。

有M3 Ultra的童鞋們，可以按照下面的方式使用llm-mlx跑起來：

llm mlx download-model mlx-community/DeepSeek-V3-0324-4bit
llm chat -m mlx-community/DeepSeek-V3-0324-4bit

若是本地跑不了的朋友，除了官網(wǎng)之外，還可以在OpenRouter上體驗。

體驗地址：openrouter.ai/chat?models=deepseek/deepseek-chat-v3-0324:free

相比起某些會在發(fā)布前數(shù)月就開始大肆宣傳造勢的O和A開頭的AI公司，DeepSeek這種低調(diào)辦大事的風(fēng)格可謂是天壤之別。

沒有白皮書，沒有博客文章，只有一個空白的README文件和模型權(quán)重本身——上線即可直接可以下載使用。

新版V3代碼能力飆升，追平Claude 3.7

遺憾的是，DeepSeek尚未公布新版模型的系統(tǒng)卡，暫時無法窺探更多技術(shù)細節(jié)。

官方小助手的更新提示

不過，這并未阻擋全網(wǎng)對新模型的熱情，已有機構(gòu)、網(wǎng)友紛紛對V3展開通用能力、代碼、數(shù)學(xué)等多維度的測評。

根據(jù)網(wǎng)友Xeophon的自測，DeepSeek-V3-0324所有指標(biāo)性能暴漲，擊敗了Claude 3.5 Sonnet，成為目前最強的非推理模型。

就代碼能力來看，DeepSeek-V3-0324同樣能夠與Claude 3.5 Sonnet一決高下。

另外，在Aider的多語言基準(zhǔn)測試中，DeepSeek-V3-0324拿下55%成績，較前代版本顯著提升，成為僅次于Sonnet 3.7的非推理類模型第二名。

其表現(xiàn)已可媲美R1和o3-mini等具備推理能力的模型。

網(wǎng)友「karminski-牙醫(yī)」還帶來了全網(wǎng)最速的代碼實測，新模型直接干翻了DeepSeek R1，與Claude 3.7相匹敵。

在 KCORES大模型競技場中，Claude-3.7-Sonnet-Thinking無疑是LLM當(dāng)之無愧的王者，DeepSeek-V3-0324以328.3分拿下第三名，僅次于Claude 3.5 Sonnet。

他還展開了四項評測，20個小球碰撞測試，上個版本結(jié)果擠成一團，DeepSeek-V3-0324在物理模擬上表現(xiàn)更好。

在mandelbrot-set-meet-libai測試中，DeepSeek-V3-0324沒有過多變化，較初版僅僅低了2分，完成度提升很高。

還有火星任務(wù)測試中，DeepSeek-V3-0324星球渲染正確，所有模型中位列第三。

九大行星測試，DeepSeek-V3-0324真正繪制出了太陽系的完整圖。

此外，DeepSeek-V3-0324在Misguided Attention基準(zhǔn)上，躍居非推理類模型榜首，甚至超越了Claude Sonnet 3.7（非推理模型）。

令人驚訝的是，它現(xiàn)在能解決一些此前只有推理模型才能處理的提示，比如「4升水壺問題」。

V3-0324似乎學(xué)會了識別推理循環(huán)，并跳出循環(huán)——這種能力甚至是許多專業(yè)推理模型都不具備的。

顏色越深代表特定提示的正確響應(yīng)次數(shù)越多

接下來，看看DeepSeek-V3-0324在多項實測中的具體表現(xiàn)如何。

網(wǎng)友實測，一個提示即出網(wǎng)頁

網(wǎng)友「Deepanshu Sharma」表示，更新后的DeepSeek-V3-0324簡直「強的過分了」。

他用這個新模型一氣呵成創(chuàng)建了一個新網(wǎng)站，編寫了800多行代碼，一次都沒有出錯！

「看到這些厲害的開源模型不斷給大公司施加壓力，迫使他們以低成本構(gòu)建更好的模型，真是太棒了！」Deepanshu寫道。

網(wǎng)友「Risphere」體驗完新的DeepSeek-V3-0324后表示，其在編碼方面已經(jīng)與Claude 3.7 Sonnet處于同一水平上了。

要知道，Claude模型一直以來都是公認的代碼能力最強的模型。

不僅如此，Risphere甚至認為DeepSeek-V3-0324在前端開發(fā)方面超越了o1-pro和GPT-4.5！

要知道，o1-pro可是需要付費200美元每月的ChatGPT Pro會員才可以體驗的模型。

Petri Kuittinen體驗完DeepSeek-V3-0324后認為，「Anthropic和OpenAI遇上麻煩了！」。

他使用了一段非常簡短的提示詞就制作出了一個精美的響應(yīng)式網(wǎng)頁，提示詞如下：

Create a great-looking responsive front page for AI company. Include everything in one HTML5 file.?
為AI公司創(chuàng)建一個看起來很棒的響應(yīng)式首頁。將所有內(nèi)容包含在一個HTML5文件中。

Petri認為，DeepSeek-V3-0324是在前端編程上也優(yōu)于DeepSeek-R1。他完成的這個網(wǎng)站共有958行代碼，包括所有圖像，而且也適合手機上觀看。