OpenAI“草莓”值萬(wàn)億嗎?

字母榜
0 評(píng)論 3247 瀏覽 2 收藏 13 分鐘

OpenAI 出人意料地發(fā)布了備受期待的新型 AI 模型——o1,這一被稱為“草莓”的模型在推理任務(wù)上展現(xiàn)出了顯著的能力提升。文章深入探討了 o1 模型的技術(shù)特性、應(yīng)用潛力,以及它在 OpenAI 商業(yè)戰(zhàn)略中的地位。

奧特曼和馬保國(guó)有什么共同點(diǎn)?答:都愛(ài)搞偷襲。

“草莓”的消息已經(jīng)傳了幾個(gè)月,據(jù)說(shuō)這是OpenAI內(nèi)部的一個(gè)神秘項(xiàng)目,似乎和前代模型頗有些不同。但OpenAI一直諱莫如深,最接近曝光的時(shí)刻,是此前CEO山姆·奧特曼(Sam Altman)在社交媒體上發(fā)布的一張真·草莓照片。

就在前幾天,The Information還在爆料稱“草莓”將在未來(lái)兩周內(nèi)發(fā)布。

即便在如此高的關(guān)注度下,OpenAI還是打了世界一個(gè)措手不及:當(dāng)?shù)貢r(shí)間9月12日下午,沒(méi)有任何預(yù)告,沒(méi)有任何發(fā)布會(huì),OpenAI突然發(fā)布了新模型。

不過(guò),新模型的名字不像“草莓”那樣美味,而是很正經(jīng),且饒有深意:o1。

要知道,此前OpenAI發(fā)模型一直以“GPT”系列迭代,從2018年的GPT-1到今年5月的GPT-4o無(wú)不如是。如今,OpenAI卻開(kāi)辟新條線。

在官宣o1發(fā)布的官方博文中,OpenAI這樣說(shuō)道:“作為早期模型,它還不具備使 ChatGPT 有用的許多功能……但對(duì)于復(fù)雜的推理任務(wù)來(lái)說(shuō),這是一個(gè)重大進(jìn)步,代表了 AI 能力的新水平。鑒于此,我們將計(jì)數(shù)器重置回1并將此系列命名為 OpenAI o1?!?/p>

新模型目前只開(kāi)放給ChatGPT付費(fèi)訂閱用戶和部分程序員,為表該模型還不成熟,暫叫“o1-preview”,preview即為預(yù)覽之意。此外,OpenAI還順手發(fā)了小模型版本o1-mini。不管是o1-preview還是o1-mini,目前都有每周的回應(yīng)條數(shù)限制。

奧特曼自己在社交媒體X上夸贊新模型是“我們迄今為止最強(qiáng)大、最一致的模型”之外,也強(qiáng)調(diào)“o1仍然存在缺陷,仍然有限”。

一向喜歡給ChatGPT潑冷水的AI學(xué)者蓋里·馬庫(kù)斯(Gary Marcus)則戲謔OpenAI此舉是“熟悉的配方”:公布演示demo、向有限的用戶開(kāi)放、籌集資金、再來(lái)一遍。

o1發(fā)布的當(dāng)下,OpenAI正在進(jìn)行新一輪融資。根據(jù)彭博社最新消息,本輪融資將是百億美元規(guī)模、目標(biāo)估值1500億美元的大事件。

01

先來(lái)看看模型本身。

正如此前的傳聞,o1的一大側(cè)重點(diǎn)是“推理”。而“推理”的背后的關(guān)鍵,則是“思考”。

對(duì)于用戶來(lái)說(shuō),最直觀的感受是o1-preview在回答問(wèn)題之前,會(huì)花更長(zhǎng)時(shí)間。

字母榜在o1-preview模型下,向ChatGPT提問(wèn)“今天是幾月幾號(hào)星期幾”。問(wèn)題發(fā)送后,ChatGPT逐一顯示自己正在進(jìn)行的思考步驟:解答日期問(wèn)題、審查指引、了解當(dāng)前日期,而后才給出答案,標(biāo)明“思考8秒”。

與之相比,在GPT-4o模型下,ChatGPT在3秒內(nèi)直接給出回答,沒(méi)有顯示中間步驟。

“這是一款通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的新型大預(yù)言模型,旨在執(zhí)行復(fù)雜的推理任務(wù)。o1在回答問(wèn)題前會(huì)進(jìn)行思考——它可以在回答用戶之前產(chǎn)生一個(gè)內(nèi)部的長(zhǎng)‘思維鏈’。”O(jiān)penAI在博文中寫(xiě)道。

這次o1模型發(fā)布,OpenAI官方對(duì)于技術(shù)細(xì)節(jié)透露得很少,反復(fù)強(qiáng)調(diào)的就是“思維鏈”。

據(jù)OpenAI解釋,o1在嘗試解決問(wèn)題時(shí)使用思維鏈,就像人類(lèi)在回答一個(gè)困難問(wèn)題之前長(zhǎng)時(shí)間地思考。通過(guò)強(qiáng)化學(xué)習(xí),o1學(xué)會(huì)了精細(xì)化其思維鏈并優(yōu)化使用策略。它能夠識(shí)別和糾正自己的錯(cuò)誤,學(xué)會(huì)將復(fù)雜的步驟分解得更簡(jiǎn)單。當(dāng)前的方法不起作用時(shí),它會(huì)嘗試不同的方法。

“這個(gè)過(guò)程極大地提高了模型的推理能力。”

那o1的能力究竟有多強(qiáng)呢?除了OpenAI一連發(fā)布的數(shù)條演示視頻之外,最有說(shuō)服力的還得是測(cè)試成績(jī)。OpenAI表示,在許多推理密集的基準(zhǔn)測(cè)試中,o1的表現(xiàn)“與人類(lèi)專家相媲美”,優(yōu)于以前的技術(shù)。例如在國(guó)際奧數(shù)考試(IMO)中,以前的技術(shù)得分13%,o1的得分高達(dá)83%。

在 Codeforces 編程比賽中,o1拿到89%的優(yōu)異成績(jī)。OpenAI基于o1還針對(duì)性地開(kāi)發(fā)了更擅長(zhǎng)編程的o1-ioi,成績(jī)一舉超過(guò)93%的參賽者。

另一個(gè)被OpenAI特別拿出來(lái)“炫耀”的測(cè)試是GPQA-diamond,這是一個(gè)化學(xué)、物理學(xué)和生物學(xué)專業(yè)知識(shí)的基準(zhǔn)測(cè)試。OpenAI邀請(qǐng)了擁有博士學(xué)位的專家一同比拼,發(fā)現(xiàn)“o1的表現(xiàn)超過(guò)了這些人類(lèi)專家”。

OpenAI還稱,啟用視覺(jué)感知能力后,o1在MMMU測(cè)試中的得分為78.2,%,“成為第一個(gè)能夠與人類(lèi)專家競(jìng)爭(zhēng)的模型”。此外,57個(gè)MMLU子類(lèi)別中,o1在54個(gè)子類(lèi)別上超過(guò)了GPT-4o。

總之,o1比起OpenAI之前的模型,更注重推理能力,在數(shù)學(xué)和編程等方面的能力尤其得到提升,說(shuō)夸張點(diǎn)兒簡(jiǎn)直是拳打博士,腳踢專家,而且通過(guò)“思維鏈”,還有望減少模型的幻覺(jué)。

02

不過(guò),目前o1還處在比較早期的階段,正如奧特曼強(qiáng)調(diào)的“還有缺陷,仍然有限”。

僅在字母榜的淺淺嘗試中,o1-preview就發(fā)生過(guò)錯(cuò)誤。如提問(wèn)“9.11和9.9哪個(gè)大”,GPT-4o回答錯(cuò)誤,o1-preview同樣回答錯(cuò)誤,一本正經(jīng)地表示“9.11確實(shí)大于9.9.因?yàn)?.11(即9.11)比9.9(9.90)要大”。啰唆中帶著一絲滑稽,更別提思考花費(fèi)了15秒。

The Information也報(bào)道稱,一些試用了o1-preview的用戶表示,很多互動(dòng)“不值得額外等待10到20秒的時(shí)間”,他們更喜歡GPT-4o的響應(yīng)速度。

目前開(kāi)放給付費(fèi)用戶的是o1-preview和o1-mini,但次數(shù)有限制:o1-preview每周30條消息,o1-mini每周50條消息。

下周開(kāi)始,ChatGPT的企業(yè)用戶和教育(Edu)用戶也可以訪問(wèn)這兩種模型。OpenAI還表示未來(lái)想向所有用戶免費(fèi)提供o1-mini,但具體的時(shí)間并未公布。

這還是OpenAI首次在發(fā)布模型的時(shí)候加上類(lèi)似“preview(預(yù)覽)”的后綴,此前不管是GPT-4還是GPT-4o都是直接發(fā)布完全體。

o1的一個(gè)不容忽視的特點(diǎn)是:貴。

開(kāi)發(fā)人員訪問(wèn)o1的成本非常高:在API方面,o1-preview每100萬(wàn)個(gè)輸入令牌或模型解析的文本塊收費(fèi)15美元,是GPT-4o的三倍,每100萬(wàn)個(gè)輸出令牌收費(fèi)60美元,是GPT-4o的四倍。

The Atlantic在報(bào)道中分析稱,o1專門(mén)被設(shè)計(jì)成需要更多時(shí)間的,這必然會(huì)消耗更多資源,增加AIGC盈利的難度。

03

本文開(kāi)頭提到的馬庫(kù)斯(Gary Marcus)是人類(lèi)神經(jīng)科學(xué)和人工智能交叉領(lǐng)域的學(xué)者,紐約大學(xué)榮譽(yù)教授,同時(shí)也是AI初創(chuàng)公司Geometric Intelligence的創(chuàng)始人兼CEO,他更加深入人心的角色是“AI界的刺兒頭”,多次批評(píng)OpenAI。

在他看來(lái),OpenAI突然發(fā)布o(jì)1-preview的舉動(dòng)更多是一種宣傳手段。

畢竟OpenAI正在進(jìn)行一輪重要的融資,據(jù)彭博社近日的最新報(bào)道,OpenAI正在商談以1500億美元估值從投資者那里籌集65億美元,此外還想以循環(huán)信貸的方式從銀行籌集50億美元。

“發(fā)demo,向有限用戶開(kāi)放、籌錢(qián)、重復(fù)”,馬庫(kù)斯這樣總結(jié)OpenAI的“手段”。

今年7月,The Information曾報(bào)道OpenAI今年可能虧損高達(dá)50億美元。其中OpenAI今年的員工成本約15億美元,AI訓(xùn)練和推理成本可能高達(dá)70億美元,而年收入則預(yù)計(jì)在35億美元到45億美元之間。

當(dāng)時(shí)The Information就預(yù)言,照這個(gè)燒錢(qián)速度,OpenAI很快就得出來(lái)融資,上一次OpenAI的重要融資還是2023年初,微軟投了百億美元。

OpenAI已經(jīng)不是第一次在關(guān)鍵節(jié)點(diǎn)釋放“不成熟的產(chǎn)品”。

去年10月,OpenAI傳出尋求出售股票的消息,當(dāng)時(shí)被傳的可能估值是860億美元。但是次月OpenAI發(fā)生了驚人的高層巨變,奧特曼被踢出公司,又很快重回CEO崗位,贏得了“宮斗”。但股票出售計(jì)劃由此被短暫耽擱,直到11月底才有交易“重回正軌”的消息。彼時(shí)就有知情人士表示,員工擔(dān)心這次突發(fā)事件會(huì)影響股票出售,影響公司的估值。

有趣的是,在今年2月15日,OpenAI突然公布了一個(gè)全新的視頻生成模型Sora,演示demo引起外界震動(dòng)。不出三日,《紐約時(shí)報(bào)》報(bào)道,OpenAI完成了員工出售股份的交易,公司估值“如期”超過(guò)800億美元。

如今已經(jīng)過(guò)去了半年多,Sora遲遲未向大眾開(kāi)放,甚至沒(méi)有推進(jìn)大規(guī)模的測(cè)試。外界開(kāi)始懷疑,Sora其實(shí)根本沒(méi)有足夠的算力支撐運(yùn)行。市場(chǎng)研究機(jī)構(gòu)Factorial Funds發(fā)布的報(bào)告認(rèn)為,部署Sora需要72萬(wàn)張英偉達(dá)H100芯片。

9月初,《臺(tái)灣經(jīng)濟(jì)日?qǐng)?bào)》報(bào)道臺(tái)積電的A16埃米級(jí)芯片已經(jīng)有大客戶下單,除了蘋(píng)果之外,還有OpenAI。而OpenAI將用定制芯片提升Sora的視頻生成能力。這似乎也印證著此前Sora遇到了算力卡點(diǎn)。

如今草莓味的ChatGPT來(lái)了,也許很快,我們就能看到OpenAI成功完成新一輪融資、估值超萬(wàn)億元的消息。

撰文:畢安娣 編輯:王靖

本文由人人都是產(chǎn)品經(jīng)理作者【字母榜】,微信公眾號(hào):【字母榜】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!
专题
12417人已学习15篇文章
知识付费是内容赛道上的一块高地,有着上百亿的市场规模。本专题的文章分享了关于对知识付费的观点。
专题
14727人已学习11篇文章
SWOT分析法是互联网人最常用的分析模型之一,将企业内外部条件各方面内容进行综合和概括,进而分析组织的优劣势,面临的机会和威胁的一种方法。本专题的文章分享了如何做SWOT分析。
专题
54899人已学习12篇文章
据说70%的问题都是沟通问题,沟通能力对产品经理太太太重要了。
专题
14338人已学习12篇文章
数据库对于产品经理来说是一个既熟悉又陌生的概念,虽然产品设计中的数据基本都要与数据库交互,但平时的工作中也很少接触到数据库的具体操作和细节。本专题的文章分享了数据库的基础知识。
专题
87522人已学习12篇文章
世间万物皆有套路,面试更是如此,多拿几个靠谱offer。
专题
11855人已学习14篇文章
大多数产品经理都会经历职场晋升和转正述职的时刻,这个时候,你该怎么做准备?本专题的文章分享了述职报告撰写指南。