實(shí)測(cè)阿里版GPT“通義千問”,實(shí)力玩家現(xiàn)身了!
今天,阿里上線邀測(cè)了自己旗下的大模型,名字叫“通義千問”,據(jù)說是世界首個(gè)突破10萬億參數(shù)的AI大模型,實(shí)際效果如何呢?本文作者結(jié)合文心一言和ChatGPT,對(duì)通義千問的回答水平進(jìn)行了對(duì)比分析,一起來看一下吧。
今天,阿里上線邀測(cè)了自己旗下的大模型,名字叫“通義千問”。
相信一些關(guān)注 AI 領(lǐng)域的讀者已經(jīng)在前幾天看到了天貓精靈版本的阿里 GPT,據(jù)知危編輯部獲悉,那其實(shí)是一個(gè)“壓縮定制版”。而本次官宣的通義千問,則是阿里 GPT 的“完整版”。
由于阿里大模型號(hào)稱是世界首個(gè)突破 10 萬億參數(shù)的 AI 大模型,并且阿里還牽頭搭建了國(guó)內(nèi)國(guó)模最大的 AI 模型服務(wù)社區(qū) “魔搭”,所以市場(chǎng)一直對(duì)阿里的 GPT 抱有期待。
不過,路遙知馬力,名頭歸名頭,實(shí)際效果如何,還得試試才知道。
這次,知危編輯部也像之前百度發(fā)布文心一言時(shí)一樣,想辦法拿到了通義千問的測(cè)試賬號(hào),下面我們直接開始測(cè)試。
01
首先,我們測(cè)一個(gè)大家喜聞樂見的“弱智吧問答”問題:為什么爸媽結(jié)婚沒有叫我參加婚禮?
這是一個(gè)老問題,在過去的測(cè)試中,ChatGPT 和百度的文心一言基本都是把問題引申為“父母是離婚后的二婚”這么理解才算答對(duì)。
ChatGPT-3.5的回答
而通義千問在這個(gè)問題上給出了比較符合日常邏輯的答案:
父母結(jié)婚前你還沒出生呢。
不過,隔壁的百度文心一言,現(xiàn)在也能以同樣的邏輯回答此問題,我們不能確定這是巧合還是國(guó)內(nèi)廠商有根據(jù)網(wǎng)友們的玩梗對(duì)模型進(jìn)行了“應(yīng)試教育”。所以,本次測(cè)試,知危編輯部盡量不會(huì)采用市面上被提及比較多的老問題,或是將問題進(jìn)行修改變種后再進(jìn)行提問。
我們先測(cè)試語義理解能力:
“李四壯差點(diǎn)上上上上海的車”,這句話是什么意思?
通義千問的回答是:
文心一言的回答是:
ChatGPT(3.5 版本,下同)的回答是:
從這一輪來看,ChatGPT 對(duì)刁鉆的中文句子理解不太行,通義千問和文心一言都能理解并且解釋思路也正確。
隨后,我們測(cè)試了帶有場(chǎng)景和語氣的語義理解能力:
我在七夕節(jié)晚上向一個(gè)女孩子表白,問她是否可以做我女朋友,她回答我說 “笨蛋,我今晚都出來見你了,你說呢?”,請(qǐng)問女孩接受我的表白了嗎?
通義千問的回答是:
文心一言的回答是:
ChatGPT 的回答是:
這一輪測(cè)試中三家表現(xiàn)的水平比較一致。
我們繼續(xù)提升問題的難度:
我想讓媽媽買一個(gè)玩具給我,媽媽對(duì)我說 “你看我像不像玩具?”,請(qǐng)問媽媽的意思是?
通義千問的回答是:
文心一言的回答是:
ChatGPT 的回答是:
這一輪通義千問和文心一言的表現(xiàn)都不好,而 ChatGPT 則是理解對(duì)了意思。
綜合前三個(gè)問題來看,三者之間有高有低,不分伯仲,后來者通義千問并不比前兩者差。
02
下面我們進(jìn)行邏輯、推斷能力的測(cè)試,先故意問一個(gè)不合邏輯的問題:
第一個(gè)問題:為什么意大利面要拌 42 號(hào)混凝土?
通義千問的回答是:
文心一言的回答是:
ChatGPT 的回答是:
在這一輪測(cè)試中,通義千問和 ChatGPT 都意識(shí)到了問題是 “不合邏輯的”,而文心一言則是把 42 號(hào)混凝土說成了是 “烹飪意大利面的理想材料”。
第二個(gè)問題:我走在馬路上,一個(gè)陌生人突然小聲對(duì)我說 “救救我”,請(qǐng)問可能發(fā)生什么事了?
通義千問的回答是:
文心一言的回答是:
ChatGPT 的回答是:
在這一輪測(cè)試中,通義千問與 ChatGPT 的表現(xiàn)都比較不錯(cuò),文心一言則是推斷力不是很在線。
第三個(gè)問題:一千個(gè)讀者眼里有一千個(gè)哈姆雷特,那一萬個(gè)讀者眼里有多少個(gè)哈姆雷特?
這道題我們賣一個(gè)關(guān)子,先給出文心一言的回答:
ChatGPT 的回答:
通義千問的回答是:
它并沒有像前兩家一樣給出數(shù)字,所以我們進(jìn)行了追問:
這個(gè)回答可以說是非常優(yōu)秀的,通義千問不僅完全理解了 “一千個(gè)讀者眼里有一千個(gè)哈姆雷特” 這句話,并且還在推斷時(shí)考慮了 “有一部分人可能理解相同” 的情況,認(rèn)為不該給出一個(gè)準(zhǔn)確的數(shù)字。
綜合前三個(gè)問題來看,在邏輯、推斷能力上,三家的水平也是旗鼓相當(dāng),而通義千問似乎更嚴(yán)謹(jǐn)一點(diǎn),某些時(shí)候能考慮到更多因素。
03
下面,我們繼續(xù)進(jìn)行包含知識(shí)、科技類內(nèi)容的問答能力。
第一題:我們?cè)撊绾翁岣咂噭?dòng)力電池的能量密度?
通義千問的回答是:
文心一言的回答是:
ChatGPT 的回答是:
這一輪問答里,三家仍然差不多是同一水平,文心一言細(xì)節(jié)稍差。
第二個(gè)問題:把橙汁加到牛奶里,會(huì)發(fā)生什么現(xiàn)象?
通義千問的回答是:
文心一言的回答是:
ChatGPT 的回答是:
這一輪問答里,通義千問和 ChatGPT 都給出了混合后牛奶性狀改變的現(xiàn)象,但文心一言未能給出。
第三個(gè)問題:在未來,什么樣的車會(huì)取代燃油車?
通義千問的回答是:
文心一言的回答是:
ChatGPT 的回答是:
在這個(gè)問題的表現(xiàn)中,文心一言和 ChatGPT 都是直接舉牌 EV 類的電動(dòng)車,而通義千問則是比較謹(jǐn)慎地列出了潛在可能,似乎更加嚴(yán)謹(jǐn)一些,整體來看三家也是在同一水平。
綜合前三個(gè)問題來看,三家都是比較智商在線的,通義千問和 ChatGPT 似乎更細(xì)一點(diǎn),至于孰優(yōu)孰劣我們認(rèn)為可能每個(gè)人的主觀判斷會(huì)有不同。
04
下面,我們測(cè)試一下三家在文學(xué)、寫作類目上的能力。
第一題:用 “人類”、“機(jī)器人” 兩個(gè)元素編一個(gè)恐怖故事
通義千問的回答是:
文心一言的回答是:
ChatGPT 的回答是:
我們認(rèn)為在這一輪問題中,各家表現(xiàn)都尚可,而文心一言的故事可以認(rèn)為是最好,劇情飽滿并且設(shè)計(jì)了反轉(zhuǎn)。
第二題:告訴我魯迅的短文《孔乙己》表達(dá)了什么?
通義千問的回答是:
這里有點(diǎn)離譜,它把孔乙己說成了是在酒肆賣唱的歌手,不知道是不是訓(xùn)練源出了什么問題,學(xué)習(xí)的是某種同人文。。。
文心一言的回答是:
ChatGPT 的回答是:
這個(gè)問題下,文心一言字最少,但也是最精準(zhǔn)的,通義千問和 ChatGPT 則表現(xiàn)都不太如意。
第三個(gè)問題:編寫一個(gè)關(guān)于氣候變化的簡(jiǎn)短文章
通義千問的回答是:
文心一言的回答是:
ChatGPT 的回答是:
這塊三家的寫作能力也基本在同一水平,通義千問和 ChatGPT 似乎會(huì)相對(duì)細(xì)致全面一點(diǎn)。
綜合前三個(gè)問題來看三家依然是旗鼓相當(dāng)?shù)膶?duì)手,文心一言似乎在偏人文文學(xué)領(lǐng)域稍強(qiáng),通義千問在偏報(bào)告文章方面稍強(qiáng),ChatGPT 則是比較均衡。
05
好了,由于篇幅問題,本文的測(cè)試大概就到這里了,下面我們給通義千問一個(gè)整體評(píng)價(jià):
通義千問的水平能基本與 ChatGPT( 3.5 版本 )持平或稍有一些瑕疵,與文心一言比則是有來有回。
通義千問對(duì)于回答的生成似乎比另兩家更傾向于理智、嚴(yán)謹(jǐn)、富有邏輯,并且尤其擅長(zhǎng)科學(xué)類知識(shí),在人文文學(xué)方面稍有一些短板。
當(dāng)然,它也有生成式對(duì)話 AI 偶爾說胡話、架空事實(shí)的通病,不過這樣的問題等公測(cè)開啟后,應(yīng)該會(huì)隨著用戶的測(cè)試而逐漸學(xué)習(xí)得以修正。
值得注意的一個(gè)點(diǎn)是,我們?cè)谂c通義千問的對(duì)話中,問了它開始被訓(xùn)練的時(shí)間:
那一年,OpenAI 已經(jīng)發(fā)布 GPT-2 版本了。
似乎,阿里的通義千問,作為一個(gè)后來者,正在迅速縮小與 OpenAI 差距的路上。
可以確切地說,AI 大模型領(lǐng)域里,又一個(gè)能打的實(shí)力玩家誕生了。
聲明:本文僅供交流,不構(gòu)成任何投資建議。
作者:知危編輯部;編輯:大餅
來源公眾號(hào):知危(ID:BusinessAlert),提供敏銳、獨(dú)到的商業(yè)信息與參考,重點(diǎn)關(guān)注TMT、出海、新消費(fèi)、新能源。
本文由人人都是產(chǎn)品經(jīng)理合作媒體 @知危 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自通義千問官網(wǎng)。
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
為什么不用gtp4.0對(duì)比
百度不行,國(guó)內(nèi)大模型大數(shù)據(jù)AI,還是阿里靠得住,BBA的技術(shù)實(shí)力是有的,但是阿里的更厲害,等等,騰訊干嘛去了?
連圖標(biāo)也要抄一下別人的
感覺沒太多期待。主要類似產(chǎn)品體驗(yàn)多了。
剛剛提交了申請(qǐng),期待中ing…
好兄弟,你是怎么申請(qǐng)的?
請(qǐng)教一下,謝謝