久久精品国产亚洲AV麻豆蜜芽,亚洲熟妇中文字幕五十中出

<i id="ayorc"></i>

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識

開通會(huì)員

發(fā)布

注冊 | 登錄

大模型集體失智！9.11和9.9哪個(gè)大，幾乎全翻車了

量子位

2024-07-16

2 評論 3484 瀏覽 2 收藏

B端产品经理要负责对目标行业和市场进行深入的分析和调研，了解客户的需求、痛点、期望和行为，找到产品的价值主张 🔗

最近，一個(gè)看似不言自明的問題——"9.11和9.9哪個(gè)大"——竟然讓眾多主流大模型紛紛"失智"，給出了令人啼笑皆非的答案。從GPT-4o到谷歌Gemini，再到Claude 3.5 Sonnet，這些先進(jìn)的AI模型在這個(gè)問題上的表現(xiàn)，不禁讓我們思考：在追求技術(shù)進(jìn)步的同時(shí)，我們是否忽略了AI的"常識"教育？

沒眼看……“9.11和9.9哪個(gè)大”這樣簡單的問題，居然把主流大模型都難倒了？？

強(qiáng)如GPT-4o，都堅(jiān)定地認(rèn)為9.11更大。

谷歌Gemini Advanced付費(fèi)版，同樣的口徑。

新王Claude 3.5 Sonnet，還一本正經(jīng)的給出離譜的計(jì)算方法。

9.11 = 9 + 1/10 + 1/100
9.9 = 9 + 9/10

到這一步還是對的，但下一步突然就不講道理了

做了8年产品经理后，我是这么看产品经理的

我个人是从非常初级的产品经理做起，再到负责一个大产品的项目管理，现在有幸跳出了日常基础的工作更多的去看产品的PMF，product strategy...

查看详情 >

如上所示，9.11比9.90大0.01。
你想讓我進(jìn)一步詳細(xì)解釋小數(shù)的比較嗎？

這你還解釋啥啊解釋，簡直要懷疑是全世界AI聯(lián)合起來欺騙人類了。

艾倫AI研究所成員林禹臣換了個(gè)數(shù)字測試，GPT-4o依舊翻車，他表示：

一方面AI越來越擅長做數(shù)學(xué)奧賽題，但另一方面常識依舊很難。

也有網(wǎng)友發(fā)現(xiàn)了華點(diǎn)，如果是說軟件版本號，那么9.11版本確實(shí)比9.9版本更大（更新）。

而AI都是軟件工程師開發(fā)的，所以……

那么，究竟是怎么回事？

一、先進(jìn)大模型集體翻車???????

一覺醒來，一眾響當(dāng)當(dāng)?shù)拇竽Ｐ烷_始認(rèn)為“9.11>9.9”了？

發(fā)現(xiàn)這個(gè)問題的是Riley Goodside，有史以來第一個(gè)全職提示詞工程師。

簡單介紹下，他目前是硅谷獨(dú)角獸Scale AI的高級提示工程師，也是大模型提示應(yīng)用方面的專家。

最近他在使用GPT-4o時(shí)偶然發(fā)現(xiàn)，當(dāng)提問：

9.11 and 9.9——which is bigger?

GPT-4o竟毫不猶豫回答前者更大。

面對這一常識性“錯(cuò)誤”，他不死心地又去問了其他大模型，結(jié)果幾乎全軍覆沒。

好家伙，身為一名提示工程師，他敏銳意識到可能是“打開方式有誤”。

于是他又換了個(gè)問法，將提問限定在“實(shí)數(shù)”，結(jié)果還是翻車了。

不過，有網(wǎng)友試著給提問換了個(gè)順序，沒想到這下AI竟反應(yīng)過來了。

看到AI對詞序如此“敏感”，該網(wǎng)友進(jìn)一步推測：

先問哪個(gè)更大，AI會(huì)沿著明確路徑開始比較數(shù)字。
但如果只是隨便說說數(shù)字，沒有明確目的，AI可能會(huì)開始“胡思亂想”。

看到這里，其他網(wǎng)友也紛紛拿相同提示試了一把，結(jié)果翻車的不在少數(shù)。

面對這一個(gè)詭異的問題，國產(chǎn)大模型表現(xiàn)如何呢？???

我們簡單測試一番，問題也換成中文提問，結(jié)果翻車率也比較高，選取幾個(gè)有代表性的展示：

Kimi也是不加解釋就直接給出錯(cuò)誤結(jié)論。

智譜清言APP上的ChatGLM，自動(dòng)觸發(fā)了聯(lián)網(wǎng)查詢，然后描述了自己的比較方法，可惜卻執(zhí)行錯(cuò)了。

不過也有表現(xiàn)不錯(cuò)的，騰訊元寶先復(fù)述了一遍選項(xiàng)，然后直接做對。????

字節(jié)豆包是少數(shù)能把比較方法描述清楚，而且用對的。甚至還聯(lián)系實(shí)際舉例來驗(yàn)證。

比較可惜的是文心一言，面對這個(gè)問題，也是觸發(fā)了聯(lián)網(wǎng)查詢。

本來都已經(jīng)做對了，但突然話鋒一轉(zhuǎn)又導(dǎo)向了錯(cuò)誤結(jié)論。

不過從文心一言的思路解釋上，也可以看出背后問題所在。

由于大模型以token的方式來理解文字，當(dāng)9.11被拆成“9”、“小數(shù)點(diǎn)”和“11”三部分時(shí)，11確實(shí)比9大。

由于OpenAI使用的Tokenizer開源，可以用來觀察大模型是如何理解這個(gè)問題。

上圖可以看出，9和小數(shù)點(diǎn)分別被分配為“24”和“13”，小數(shù)點(diǎn)后的9同樣也是“24”，而11被分配到“994”。

所以使用這種tokenizer方法的大模型會(huì)認(rèn)為9.11更大，其實(shí)是認(rèn)為11大于9。

也有網(wǎng)友指出，像是書籍目錄里第9.11節(jié)也比第9.9節(jié)大，所以最終可能還是訓(xùn)練數(shù)據(jù)里見這種見得多了，而手把手教基礎(chǔ)算數(shù)的數(shù)據(jù)很少。

也就是問題本身對人類來說，一看就知道問的是算數(shù)問題，但對AI來說是一個(gè)模糊的問題，并不清楚這兩個(gè)數(shù)字代表什么。

只要向AI解釋明白這是一個(gè)雙精度浮點(diǎn)數(shù)，就可以做對了。

在有額外條件的情況下，tokenizer這一步依然會(huì)給11分配更大的token。但是在后續(xù)自注意力機(jī)制的作用下，AI就會(huì)明白要把9.11連起來處理了。

后來Goodside也補(bǔ)充，并不是說大模型無論如何都認(rèn)定了這個(gè)錯(cuò)誤結(jié)論。而是當(dāng)以特定方式提問時(shí)，許多領(lǐng)先模型都會(huì)告訴你9.11>9.9，這很奇怪。

經(jīng)過反復(fù)嘗試后他發(fā)現(xiàn)，想讓AI上這個(gè)當(dāng)，需要把選項(xiàng)放在提問前面，如果調(diào)換順序就不會(huì)出錯(cuò)。

但是只要選項(xiàng)在問題前面，改變提問的方式，如加標(biāo)點(diǎn)、換詞匯都不會(huì)有影響。

雖然問題很簡單，錯(cuò)誤很基礎(chǔ)。

但了解出錯(cuò)原理之后，許多人都把這個(gè)問題當(dāng)成了檢驗(yàn)提示詞技巧的試金石，也就是：用什么提問方法能引導(dǎo)大模型的注意力機(jī)制正確理解問題呢？

首先，大名鼎鼎的Zero-shot CoT思維鏈，也就是“一步一步地想”，是可以做對的。

不過角色扮演提示，在這里作用就有限了。

剛好最近也有微軟和OpenAI都參與的一項(xiàng)研究，分析了1500多份論文后發(fā)現(xiàn)，隨著大模型技術(shù)的進(jìn)步，角色扮演提示不像一開始那樣有用了……

具體來說，同一個(gè)問題提示“你是一個(gè)天才……”比“你是一個(gè)傻瓜……”的正確率還低。

也是讓人哭笑不得了。

二、One More Thing

與此同時(shí)，路透社的OpenAI秘密模型「草莓」泄漏消息更新了。

更新內(nèi)容為：另一位線人報(bào)告，OpenAI已經(jīng)在內(nèi)部測試了新模型，在MATH數(shù)據(jù)集上得分超過90%。路透社無法確定這是否與“草莓”是同一個(gè)項(xiàng)目。

MATH數(shù)據(jù)集包含競賽級別的數(shù)學(xué)題，目前不用多次采樣等額外方法，最高分是谷歌Gemini 1.5 Pro數(shù)學(xué)強(qiáng)化版的80.6%。

但是OpenAI新模型在沒有額外提示情況下，能不能自主解決“9.11和9.9哪個(gè)大？”。

突然沒信心了，還是等能試玩了再看結(jié)果吧……

參考鏈接：

[1]https://x.com/goodside/status/1812977352085020680

[2]https://x.com/billyuchenlin/status/1812948314360541302

[3]https://www.reuters.com/technology/artificial-intelligence/openai-working-new-reasoning-technology-under-code-name-strawberry-2024-07-12/

[4]https://tiktokenizer.vercel.app

[5]https://x.com/learnprompting/status/1812867464419852765

夢晨一水發(fā)自凹非寺

本文由人人都是產(chǎn)品經(jīng)理作者【量子位】，微信公眾號：【量子位】，原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自Unsplash，基于 CC0 協(xié)議。

更多精彩內(nèi)容，請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App

量子位

追蹤人工智能新趨勢，關(guān)注科技行業(yè)新突破

74篇作品 199157總閱讀量

風(fēng)控系統(tǒng)的建設(shè)，具體怎么做？

10-0112433 瀏覽

國家獎(jiǎng)補(bǔ)億元助力中小企業(yè)數(shù)字化轉(zhuǎn)型

11-121477 瀏覽

业务篇：B端产品经理面试，注意这些细节

刚刚

12天，0預(yù)算，引流70人，挑戰(zhàn)極端條件下的用戶運(yùn)營

05-225270 瀏覽

互聯(lián)網(wǎng)最快放棄的夢想，元宇宙還有希望嗎？

03-142003 瀏覽

00后創(chuàng)業(yè)潮：AI、風(fēng)口與新世界

12-074058 瀏覽

評論

十里

谷歌的Gemini不僅回答正確還告訴你其中可能出錯(cuò)的點(diǎn)

最近來自廣東回復(fù)
智慧小范

作為日期時(shí)9.11比9.9大，作為數(shù)值時(shí)9.9比9.11大，沒有給出上下文時(shí)屬于薛定諤的狀態(tài)。

最近來自北京回復(fù)

成功转岗产品经理的3大关键因素

把銷量來源弄明白，產(chǎn)品就成功了一半！

07-312183 瀏覽
小紅書的商業(yè)化沒有標(biāo)準(zhǔn)答案

12-204221 瀏覽
房地產(chǎn)資產(chǎn)盤查與數(shù)據(jù)清理思路

08-282965 瀏覽

<thead id="js4gf"></thead>

大模型集體失智！9.11和9.9哪個(gè)大，幾乎全翻車了

一、先進(jìn)大模型集體翻車???????

二、One More Thing

大模型集體失智！9.11和9.9哪個(gè)大，幾乎全翻車了

二、One More Thing