Deepseek V3-0324版本的評測來啦

帥森森
0 評論 479 瀏覽 0 收藏 5 分鐘
🔗 产品经理的职业发展路径主要有四个方向:专业线、管理线、项目线和自主创业。管理线是指转向管理岗位,带一个团队..

前幾天DeepSeek更新了V3版本,雖然是個小更新,但性能表現(xiàn)依然超出了許多人的預(yù)期。這篇文章,我們來看看作者的分析。

開始

沒有一點點防備,也沒有一絲的顧慮,他就這樣悄悄的上線啦。有多低調(diào),看下面圖片,readme竟然都是空的。好歹宣傳一下呀,哈哈

有哪些更新

官方給出答復(fù)是小的版本更新,沒有基準(zhǔn)測評和技術(shù)報告。社區(qū)反饋,代碼能力有明顯的提升,還具備一定的推理能力。輸出速度更快。能夠迅速處理數(shù)學(xué)和編程任務(wù)。它也非常穩(wěn)定,無論是編程還是解決問題,每次都能給出良好的結(jié)果。對比表現(xiàn)可以看下面的編程實現(xiàn)對比,DeepSeek V3-0324 的表現(xiàn)優(yōu)于 o3-mini 和 Deepseek R1視頻展示看公眾號內(nèi)容(帥森森聊AI和職場)

第三方評測

結(jié)論

Deepseek V3-0324可能是目前最好的非推理模型,而且還是免費的。綜合能力與sonnet 3.5不分伯仲。

評測邏輯

每個柱體有3個顏色,代表是三種評測邏輯,具體含義如下:這張圖片的右上角有三個圖例,分別代表以下含義:

1. Pass@5

含義:Pass@5 表示模型在測試中前五個結(jié)果中有多少是正確的。

用途:這一指標(biāo)通常用于評估模型的準(zhǔn)確率,特別是在生成任務(wù)或多選任務(wù)中。它反映了模型在有限嘗試次數(shù)內(nèi)提供正確答案的能力。

如果 Pass@5 為 80%,意味著模型在前五個結(jié)果中,有 80% 的概率至少包含一個正確答案。

2. Average Score

含義:Average Score 表示模型在所有測試中的平均得分。

用途:這一指標(biāo)反映了模型的整體性能,綜合了模型在不同任務(wù)或測試中的表現(xiàn)。

如果 Average Score 為 60%,意味著模型在所有測試中的平均得分為 60%。

3. 5/5 Consistency

含義:5/5 Consistency 是一個衡量模型在多次面對相同或非常相似的輸入時,能否給出一致性回答的指標(biāo)。更具體地說,它通常表示在五次獨立的測試中,模型都給出了相同或高度相似的答案。

用途:這一指標(biāo)反映了模型的一致性和穩(wěn)定性,評估模型是否能夠在所有測試中保持高水平的表現(xiàn)。

如果 5/5 Consistency 為 40%,意味著模型在所有測試中,有 40% 的概率能夠做到輸出一致。

指標(biāo)解讀

通用語言模型中,Deepseek V3-0324版本在top 5測評的準(zhǔn)確率居首。平均得分與sonnet 3.5不相上下。5對5一致性評測中,弱于sonnet 3.5。相比之前的V3版本,三個指標(biāo)都有提升。

哪里可以使用

官方網(wǎng)頁版: 在deepseek.com上免費測試更新后的V3版本,記得關(guān)閉“深度思考”按鈕。

官方 App: 可在iOS和Android上下載,已更新至3月24日發(fā)布的版本。

官方 API: 在api-docs.deepseek.com上使用model=’deepseek-chat’。

HuggingFace: 從HuggingFace下載“DeepSeek V3 0324”權(quán)重模型。

本文由 @帥森森 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!
专题
33689人已学习16篇文章
信息流背后有着怎样的逻辑和策略?
专题
33607人已学习17篇文章
作为产品经理,你真的懂什么是敏捷开发吗?
专题
13851人已学习12篇文章
本专题的文章分享了供应链系统设计指南。
专题
12936人已学习13篇文章
产品设计与用户的体验感息息相关,但是很多时候产品经理在产品设计过程中会忽略掉可能影响到用户体验感的一些因素,比如一些异常状态的出现会让用户产品卸载的想法。本专题的文章分享了产品异常场景设计指南。
专题
35331人已学习18篇文章
内容运营的正确姿势,你都能在这里找到!