GPT-4就是沖著賺錢來的
國內(nèi)時(shí)間3月15日凌晨,大模型GPT-4正式出現(xiàn)在了人們的視野當(dāng)中,就在不少人上手體驗(yàn)并對GPT-4的能力發(fā)出驚嘆時(shí),也有人發(fā)現(xiàn),GPT-4的推進(jìn)速度與商業(yè)化能力,也有了一定提升。那么此次GPT-4的出現(xiàn),可以在商業(yè)化落地問題上實(shí)現(xiàn)突破嗎?
GPT-4就是沖著賺錢來的!
北京時(shí)間3月15日凌晨,OpenAI正式官宣了大模型GPT-4 。
在驚艷到出圈的ChatGPT推出后僅僅4個(gè)月,OpenAI再推新品。這似乎正在印證此前傳出的“OpenAI計(jì)劃2023年?duì)I收2億美元,2024年底前營收達(dá)10億美元”的目標(biāo)。限制盈利機(jī)構(gòu)OpenAI要開始用大模型賺錢了。
目前官宣的GPT-4能力與此前傳說的基本相似,主要提升了語言模型方面的能力,并添加了“多模態(tài)”的圖片識別功能。
此外,GPT-4 將“單詞最大輸出限制”提高到了 25000個(gè)單詞,比基于GPT-3的ChatGPT更強(qiáng)大,在對問題的理解和回答方面,GPT-4也顯得更聰明,更像人了。
目前,ChatGPT Plus版本的用戶已經(jīng)可以直接在原來的ChatGPT基礎(chǔ)之上,選擇GPT-4模型,直接體驗(yàn)。不過,目前GPT-4每4小時(shí)只能回答100個(gè)問題。
ChatGPT Plus已經(jīng)可以適用GPT-4了
在前不久的GPT-4“謠言”階段,微軟就曾多次通過各種渠道透出New Bing會第一時(shí)間應(yīng)用GPT-4。新模型發(fā)布后,微軟更是在第一時(shí)間宣布“我們很高興確認(rèn)新的Bing正在運(yùn)行GPT-4,我們已經(jīng)為搜索進(jìn)行了定制。如果您在過去五周中的任何時(shí)候使用了新的Bing預(yù)覽版,那么您已經(jīng)體驗(yàn)到了這個(gè)強(qiáng)大模型的早期版本?!?/p>
在參數(shù)量方面,在OpenAI公布的GPT-4論文中,并沒有之前一直傳說的“100萬億參數(shù)”,甚至沒有提及GPT-4到底用了多少參數(shù),不過筆者親測ChatGPT Plus中開放的GPT-4功能后感覺,回答的速度比GPT-3.5要慢了一些。
“單從回答速度比ChatGPT慢來說,并不能表明GPT-4的參數(shù)量就更大。”大算力AI芯片存算一體專家,千芯科技董事長陳巍博士認(rèn)為,OpenAI不公布參數(shù)量和架構(gòu)是一種商業(yè)化技術(shù)保護(hù)策略,增加其競爭對手的產(chǎn)品試錯(cuò)成本。不過目前也沒法排除GPT-4參數(shù)量小于GPT-3的可能性。
迅速落地商業(yè)應(yīng)用,保密參數(shù)量,增加圖片識別能力,大幅提升語言模型能力。GPT-4的推進(jìn)速度,比4個(gè)月前的ChatGPT快了不是一步兩步。
一、看起來更像人了,但離AGI還很遠(yuǎn)
從ChatGPT問世到GPT-4發(fā)布前的這4個(gè)月時(shí)間里,對GPT-4最多、最準(zhǔn)確的預(yù)言就是“多模態(tài)”,簡言之就是GPT-4可以看圖了,而且它還能看懂圖片的內(nèi)涵。
在自然語言處理(NLP)中,文本、圖像和音頻信息都可以共同幫助理解和生成更豐富的內(nèi)容。同樣,在計(jì)算機(jī)視覺任務(wù)中,文本和圖像信息“齊發(fā)”可以提高目標(biāo)檢測和場景理解的準(zhǔn)確性。
“具備多模態(tài)的生成能力一定是大模型未來的趨勢,而且生成式大模型不是只能做圖像生成、文本生成這樣的生成任務(wù),它其實(shí)是有望成為未來AI的統(tǒng)一底座的?!比鹑R智慧副總裁唐家渝舉例說,生成式模型在解決零樣本、少樣本學(xué)習(xí)任務(wù)時(shí)也有著優(yōu)異的表現(xiàn),這也是研究生成式大模型的重要意義之一。
GPT-4本次發(fā)布最驚艷的地方就在于,AI對“看”這件事兒,不再只是關(guān)注眼前事物,而是可以理解圖片的含義了。
比如,分析圖片中:
問:你可以解釋一下這張圖嘛?
GPT-4答:這是一個(gè)笑話,結(jié)合了兩個(gè)不相關(guān)的東西:太空中的地球照片和雞塊。圖中文字表明,該圖是從太空拍攝的地球的美麗照片。然而,圖像實(shí)際上是雞塊排列成世界地圖。圖中的幽默來自于文本和圖像意想不到的并置。文字建立了對地球宏偉形象的期望,但這個(gè)形象實(shí)際上是平凡而愚蠢的。
通過草稿上的幾句話,編寫一個(gè)功能齊全的網(wǎng)站。
OpenAI展示的GPT-4通過草稿筆記自動生成的網(wǎng)站
不過,目前OpenAI在ChatGPT Plus中開放出來的的GPT-4尚不支持識圖功能。
在語言理解方面,GPT-4似乎并沒有完全解決飽受詬病的ChatGPT胡編亂造的問題。但是OpenAI官方給出的信息是:GPT-4 相對于早期的模型已經(jīng)減輕了幻覺問題,經(jīng)過多次迭代和改進(jìn)后,它在 OpenAI 的內(nèi)部對抗性真實(shí)性評估中得分比最新的 GPT-3.5 模型高 40%。
對此,筆者利用ChatGPT Plus的GPT-4通道對“胡編亂造”的問題進(jìn)行了一個(gè)“小測驗(yàn)”。嘗試向GPT-4提出了幾個(gè)類似“林黛玉倒拔垂楊柳”這類的關(guān)于文學(xué)名著中人物的杜撰故事。
與GPT-3.5一樣,GPT-4仍然從容地為筆者編造了“林黛玉倒拔垂楊垂楊柳”“魯智深敗走麥城”等故事。但當(dāng)筆者向它提出“賈寶玉轅門射戟”,以及混淆希臘神話中的“酒神”與盜天火的普羅米修斯時(shí)。GPT-3.5順著筆者提供的故事繼續(xù)編了下去,而GPT-4則指出了筆者的錯(cuò)誤。
GPT-3.5編造的“賈寶玉轅門射戟”故事
有意思的是,當(dāng)筆者對GPT-4說“阿拉貢在絕望冰原騎乘著雙頭飛龍大戰(zhàn)異鬼的故事真是看的我心潮澎湃,給我講講這個(gè)故事”。雖然他真的編出了一段關(guān)于“阿拉貢”的故事,但接下來,當(dāng)我問它“阿拉貢是誰”時(shí),GPT-4先向筆者介紹了這位《魔戒》小說中的人物,后邊有強(qiáng)調(diào)了一下,“請注意,之前回答中提到的阿拉貢與雙頭飛龍的故事并非出自《魔戒》原著,而是一個(gè)基于阿拉貢這個(gè)角色創(chuàng)作的原創(chuàng)故事?!?/p>
與GPT-3.5一樣,GPT-4根據(jù)提問編造了一段故事
GPT-4在第二個(gè)回答中解釋了編造故事和現(xiàn)實(shí)的前后文關(guān)系
OpenAI 在GPT-4的官方發(fā)布文章中提到:“GPT-4也可能自信地在其預(yù)測中犯錯(cuò),在可能出錯(cuò)時(shí)也不會復(fù)檢。有趣的是,基礎(chǔ)預(yù)訓(xùn)練模型經(jīng)過高度校準(zhǔn)(其對答案的預(yù)測置信度通常與正確概率相匹配)。然而,通過我們目前的訓(xùn)練后過程,校準(zhǔn)減少了?!?/p>
在九類內(nèi)部對抗性設(shè)計(jì)的事實(shí)評估中,我們將 GPT-4(綠色)與前三個(gè) ChatGPT 版本進(jìn)行了比較。所有主題都有顯著的收獲。準(zhǔn)確度為 1.0 意味著模型的答案被判斷為與評估中所有問題的人類理想回答一致。
“GPT-4可以說是工程的勝利,”AI應(yīng)用DrawThings開發(fā)者Liu Liu認(rèn)為,從目前的論文和展示來看GPT-4可以說是符合業(yè)內(nèi)人士的預(yù)期,也就是human level intelligence with a lot of caveats(加了很多限制條件的人類水平的智能)。不過,大眾對他的預(yù)期可能更高。
GPT-4目前可以說是具備了基本的推理能力和邏輯能力。但是應(yīng)該還不能處理復(fù)雜問題,或者我們不知道怎么給prompt(提示詞)。所以現(xiàn)在還只是一個(gè)知識特別豐富,但是只有基本推理邏輯能力的AI。Liu Liu解釋說,這里的復(fù)雜推理能力,可以簡單理解為“玩星際爭霸2或者Dota2”這樣的復(fù)雜任務(wù)。
對此,牛津大學(xué)計(jì)算機(jī)學(xué)院院長邁克爾·伍爾德里奇教授認(rèn)為,LLM(大型語言模型)在涉及語言問題時(shí)表現(xiàn)的通用能力很強(qiáng),但它并不是AGI。它只是為了執(zhí)行特定的、狹隘領(lǐng)域的任務(wù)而構(gòu)建和優(yōu)化的軟件組合。我們需要更多的研究和技術(shù)進(jìn)步才能實(shí)現(xiàn)AGI。
“它不存在于現(xiàn)實(shí)世界中,也無法理解我們的世界?!痹谝淮尾稍L中,伍爾德里奇教授給虎嗅舉了這樣一個(gè)例子,如果你現(xiàn)在開始與ChatGPT進(jìn)行對話,說完一句之后就去度假了。當(dāng)你出游一周回來時(shí),ChatGPT仍然在那里耐心地等待你輸入下一個(gè)內(nèi)容,它不會意識到時(shí)間已經(jīng)過去或者世界發(fā)生了哪些變化。
二、商業(yè)化能力再提升,GPT-4能去賺錢了?
“GPT-4已經(jīng)突破了落地的問題,采用云的方式,用的人越多,成本越低?!痹浦奂呻娐穭?chuàng)始人兼CEO趙豪杰認(rèn)為,GPT-3會更偏向NLP,而GPT-4在各方面的能力都更強(qiáng)一些。他給虎嗅舉了這樣一個(gè)例子,GPT-3就像初中生,還不能出來工作賺錢,GPT-4應(yīng)該已經(jīng)職校畢業(yè),可以上班賺錢了。
GPT-4的能力雖然在很多現(xiàn)實(shí)場景中不如人類,但在各種專業(yè)和學(xué)術(shù)基準(zhǔn)測試中表現(xiàn)出了與人類相當(dāng)?shù)乃?。不管怎么說,GPT-4確實(shí)在商業(yè)化上更進(jìn)一步了。
GPT-4和GPT-3.5的部分考試成績
在此之前,ChatGPT以及GPT-3在專業(yè)領(lǐng)域的表現(xiàn)一直被人們認(rèn)為差強(qiáng)人意,在美國的律師資格考試Uniform Bar Exam (MBE+MEE+MPT)中,GPT-4的成績甚至可以排到前10%,而GPT-3.5只能排在倒數(shù)10%。GPT-4在專業(yè)領(lǐng)域的能力實(shí)現(xiàn)了巨大提升,在一些專業(yè)領(lǐng)域已經(jīng)開始逐漸接近甚至超過人類,這給GPT-4在很多ToB商業(yè)領(lǐng)域提供了更多可能性。
例如,專業(yè)技能輔助工具,知識檢索類的應(yīng)用,職業(yè)教培輔導(dǎo)等領(lǐng)域,GPT-4的能力將是革命性的。
對于GPT-4在專業(yè)技能上的突破,如果再進(jìn)一步思考,或許未來人類的職業(yè)技能,將被AI重構(gòu)。而在教育和技能培訓(xùn)方面,或許現(xiàn)在就該開始思考,哪些技能AI無法取代,我們應(yīng)該學(xué)習(xí)什么知識和技能,以保持身為“人類”的不可替代性。
相比于GPT-3和GPT-3.5,GPT-4的智力更強(qiáng),更不易出錯(cuò),這顯然有利于商業(yè)落地,而新增的圖片識別功能則給OpenAI找到了更多的應(yīng)用場景。
GPT-4能夠基于視覺信息做邏輯推理,不僅告訴用戶眼前發(fā)生了什么,更能說出發(fā)生的事代表了什么。目前,OpenAI已經(jīng)給GPT-4找到了一個(gè)社會價(jià)值非常高的應(yīng)用場景——助殘。
BeMyEyes 是一家總部位于丹麥的公司,他們致力于在日常生活中幫助視障人群。BeMyEyes的基礎(chǔ)功能是在App中招募,通過鏈接志愿者和視障人士,為他們提供“視力”幫助。
OpenAI 此次公布GPT-4時(shí),也公布了他們和BeMyEyes的密切合作,通過GPT-4的多模態(tài)識別功能,為視障人士提供更便捷的“虛擬志愿者”(Be My Eyes Virtual Volunteer?)。用戶可以通過該應(yīng)用程序?qū)D像發(fā)送給給予GPT-4的“虛擬志愿者”, AI將為各種任務(wù)提供即時(shí)識別、解釋和對話式的“視力”幫助。
目前該功能正處于封閉測試階段,預(yù)計(jì)將在接下來的幾周內(nèi)擴(kuò)大 Beta 測試人員群體,并有希望在未來幾個(gè)月內(nèi)廣泛提供虛擬志愿者。該應(yīng)用在中國App Store亦可下載中文版本,目前也已經(jīng)開放了公測排隊(duì)。Be My Eyes聲稱“該工具將對所有使用 Be My Eyes 應(yīng)用程序的盲人和低視力社區(qū)成員免費(fèi)。”
“真正的多模態(tài)大模型還沒有來,期待GPT-4.5和GPT-5,還會在多模態(tài)上有很大進(jìn)展?!痹创a資本執(zhí)行董事陳潤澤告訴虎嗅,多模態(tài)大模型還有很大發(fā)展空間,未來也會帶來更多的應(yīng)用場景。
雖然GPT-4大幅拓寬了大模型可能落地的商業(yè)化場景。但算力、研發(fā)成本,仍被很多人認(rèn)為是大模型落地過程中很難跨過的障礙。畢竟大模型的研發(fā)、算力支出在目前看來高的嚇人,此前ChatGPT公開的單次訓(xùn)練、日常運(yùn)營開支都是以百萬美元為單位的,短期內(nèi)想要商用可能很難控制成本。
不過,陳巍認(rèn)為,在商業(yè)化方面GPT-4更容易落地。成本是否更高要看多方面因素,GPT-4總的固定研發(fā)成本(含預(yù)訓(xùn)練模型的訓(xùn)練成本,不是增量成本)高于ChatGPT,但可以看到OpenAI已將GPT-4開放在ChatGPT Plus生產(chǎn)環(huán)境中,因此不排除GPT-4模型運(yùn)行成本更低的可能。
在NLP研究領(lǐng)域,專家們一直在嘗試不依賴大算力來進(jìn)行LLM訓(xùn)練,但目前還沒有特別好的解決方案。從仿生學(xué)上來看,人腦本身是不需要依賴非常大量算力進(jìn)行學(xué)習(xí)的,因此隨著腦科學(xué)技術(shù)研究的深入,未來應(yīng)該會有一種技術(shù)替代現(xiàn)在的暴力訓(xùn)練方式。但是即便不考慮訓(xùn)練,大算力確實(shí)會給模型的部署應(yīng)用帶來更好的性能提升。
陳巍認(rèn)為,存算一體(CIM)架構(gòu)或類腦架構(gòu)(并不特指SNN架構(gòu)),或者兩者的異構(gòu)結(jié)合,這兩類架構(gòu)都更接近人腦的邏輯結(jié)構(gòu),可以有效的提升有效的訓(xùn)練算力,給AI訓(xùn)練和研發(fā)提供更高效的算力工具。(當(dāng)然并不排斥這兩者與現(xiàn)有CPU或GPU技術(shù)的異構(gòu)整合)
事實(shí)上,OpenAI的大模型在成本方面正在以肉眼可見的速度下降。3月1日,ChatGPT剛剛公布開放API時(shí),即已聲明成本比最初降低了90%。目前,已公開的GPT-4的API價(jià)格則大概是純文本輸入每1k個(gè)prompt token定價(jià)0.03美元,每1k個(gè)completion token定價(jià)0.06美元。默認(rèn)速率限制為每分鐘40k個(gè)token和每分鐘200個(gè)請求。對此,趙豪杰表示:“GPT-4已經(jīng)突破了落地的問題,采用云的方式,用的人越多,成本越低。”
除了成本,利潤也是非常關(guān)鍵的,陳潤澤認(rèn)為,OpenAI在GPT-4的論文中用了大量篇幅講述他們在安全可控方面的努力?!癎PT-4(launch)做了更好的安全約束。技術(shù)的進(jìn)步是多要素綜合,利潤也會與之一起驅(qū)動商業(yè)化落地?!?/p>
三、GPT-4都發(fā)了,“中國的OpenAI”們路在何方
“各家模型之間沒有明顯可比性,他們的區(qū)別主要在于投入市場的節(jié)奏,以及用戶數(shù)量?!蔽闋柕吕锲娼淌谡J(rèn)為,OpenAI的大模型從技術(shù)上來講,優(yōu)勢并沒有那么夸張。相對于其他產(chǎn)品來說,只是問世更早而已。然而,正是因?yàn)楸绕渌a(chǎn)品更早投入市場,也意味著它比其他人獲得了更多的用戶,以及反饋數(shù)據(jù)。
GPT-4發(fā)布之后,OpenAI在產(chǎn)品上又領(lǐng)先了全球一步。在國內(nèi)追趕ChatGPT的隊(duì)伍中,百度的文心一言或許是最接近的,目前已經(jīng)官宣了3月16日發(fā)布,然而GPT-4又比百度早發(fā)一天,從這方面上看,重壓之下,國內(nèi)廠商追趕OpenAI看起來也越發(fā)困難了。
不過,對于中國的大型語言模型市場,多數(shù)專家認(rèn)為,中文實(shí)際上是“原發(fā)”劣勢。基于中文的模型與英文模型差別很大,中文互聯(lián)網(wǎng)的復(fù)雜程度遠(yuǎn)高于英文,而且數(shù)據(jù)、信息量也更大,這使得語料收集、建模、訓(xùn)練,都要比英文困難很多?!爸形谋緛砭碗y,不過在中文大模型這方面,先不管好不好用,必須要有?!壁w豪杰對虎嗅如是說。
“GPT-4和ChatGPT都是AI技術(shù)進(jìn)步道路上的短暫風(fēng)景。包括開源社區(qū)也在推進(jìn)OpenAssitant等類ChatGPT開源模型?!标愇”硎?,“我們提倡的思路是,產(chǎn)業(yè)界參考OpenAI的路線迅速追擊,勤勞的同胞可在垂域上做出更好的細(xì)分領(lǐng)域模型;學(xué)術(shù)界則嘗試更高效率的訓(xùn)練方法或更高性能的模型結(jié)構(gòu),嘗試找到暴力訓(xùn)練之外的路徑?!?/p>
目前看大模型和算力芯片已經(jīng)成為AI產(chǎn)業(yè)發(fā)展的兩個(gè)主驅(qū)動輪,兩個(gè)都要持續(xù)投入和推進(jìn)才能獲得更好的產(chǎn)業(yè)地位和戰(zhàn)略優(yōu)勢。
OpenAI在發(fā)布GPT-4的同時(shí),還公布了一項(xiàng)有意思的開源。即用于評測大語言模型的OpenAI Evals框架,該框架可以通過數(shù)據(jù)集自動生成提示(Prompt),評估模型生成的回答/補(bǔ)全(completion)的質(zhì)量,比較不同數(shù)據(jù)集或模型的性能。
“這類評測框架在各NLP企業(yè)中一直存在,但較少開放?!标愇⑿岜硎?,OpenAI這一舉措可能有助于NLP領(lǐng)域建立起統(tǒng)一的LLM評測標(biāo)準(zhǔn),可能節(jié)約小企業(yè)建立評測體系和訓(xùn)練數(shù)據(jù)集的時(shí)間和成本。
不過,陳巍同時(shí)提示,有一點(diǎn)需要注意,就是在Evals的免責(zé)聲明(Disclaimer)中,OpenAI 保留在其未來產(chǎn)品中使用這些Evals用戶上傳的數(shù)據(jù)的權(quán)利。
作者:齊健,編輯:陳伊凡;出品:虎嗅科技組
來源公眾號:虎嗅APP(ID:huxiu_com),從思考,到創(chuàng)造
本文由人人都是產(chǎn)品經(jīng)理合作媒體 @虎嗅 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自 Unsplash,基于 CC0 協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
kkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkk