OpenAI發(fā)布新模型GPT-4o:對(duì)所有人免費(fèi)、更易用、更強(qiáng)
今天凌晨,OpenAI發(fā)布會(huì)召開,其中最重磅、最核心的是GPT-4o 這個(gè)新模型。具體能力如何?一起來(lái)看看吧。
今天凌晨 1 點(diǎn)( 太平洋時(shí)間 5 月 13 日上午 10 點(diǎn) ),OpenAI 的 CTO Mira Murati 在三十分鐘不到的時(shí)間里,用一場(chǎng)短的春季發(fā)布會(huì),給了大伙們秀了一波 OpenAI 的新肌肉。
說(shuō)實(shí)話,看得還有點(diǎn)讓人意猶未盡,因?yàn)檫@ AI ,好像成精了。
這場(chǎng)發(fā)布會(huì)主要有四個(gè)部分,分別是桌面端 App 的更新、 WebUI 的更新、GPT-4o 模型的發(fā)布、實(shí)時(shí) AI 助手的功能演示。
而其中最重磅、最核心的,無(wú)疑就是 GPT-4o 這個(gè)新模型。
根據(jù) Mira Murati 的說(shuō)法,OpenAI 的愿景是 AI 的便利能福澤所有人類,所以新的 GPT-4o 模型會(huì)向大伙們免費(fèi)開放使用,付費(fèi)用戶呢,則在使用次數(shù)上比免費(fèi)用戶多 5 倍。( 官方指出,當(dāng)使用次數(shù)達(dá)到上限時(shí),免費(fèi)用戶會(huì)被強(qiáng)制退回到 GPT-3.5 版本。這應(yīng)該是出于成本考量。 )
而相比于上一代的 GPT-4 Turbo,GPT-4o API 的速度快了 2 倍、費(fèi)用便宜了 50%、速率限制上,也比前者高了 5 倍。
當(dāng)然,如果只是這些性能上的“ 略微提升 ”,那就對(duì)不起 OpenAI 在 AI 領(lǐng)域話事人的地位了。
實(shí)際上,根據(jù) OpenAI 官網(wǎng)的介紹,GPT-4o 中的 “ o ” ,代表的是 “ omni ”,也就是 “ 全能 ” 的意思。它成功地把文本、視覺(jué)、音頻全部打通了,這意味著 GPT-4o 可以接受文本、音頻和圖像的任意組合作為輸入,并生成文本、音頻和圖像的任意組合輸出。
這對(duì)多模態(tài)大模型來(lái)說(shuō),是一個(gè)重大改變。
拿此前 ChatGPT 的語(yǔ)音模式為例,它要用到三個(gè)獨(dú)立模型組成的管道,一個(gè)模型負(fù)責(zé)將音頻轉(zhuǎn)錄為文本,第二個(gè)模型是 GPT-4 ,它負(fù)責(zé)接收文本并輸出文本,第三個(gè)模型則將該文本轉(zhuǎn)換回音頻。
這個(gè)過(guò)程意味最中間的主角 GPT-4 收到的信息其實(shí)是二手的 —— 它無(wú)法直接觀察音調(diào)、多個(gè)說(shuō)話者或背景噪音,也無(wú)法輸出笑聲、歌唱或表達(dá)情感等等。
而在最新的 GPT-4o 模型中,所有輸入和輸出,都由同一神經(jīng)網(wǎng)絡(luò)處理,也就是說(shuō),新的 GPT-4o 是一個(gè)原生的多模態(tài)模型,而非之前的組合模型,它解決了上述的所有缺點(diǎn)。
總之,在各型數(shù)據(jù),特別是視覺(jué)和音頻理解上,GPT-4o 相比于市面上的其他大模型,又來(lái)了一波遙遙領(lǐng)先。
在發(fā)布會(huì)上,他們也簡(jiǎn)單演示了一下基于 GPT-4o 的最新 AI 助手,只能說(shuō)是相當(dāng)震撼。
一個(gè)是 AI 助手建議 OpenAI 的工作人員別緊張,演講前可以做個(gè)深呼吸。OpenAI 的員工則故意呼吸得很大聲,讓 AI 助手對(duì)其深呼吸做出評(píng)價(jià),AI 助手直接損了他一句 “ 你不是吸塵器 ”。。。
很明顯,新模型能聽出發(fā)言人呼吸聲的輕重,并且會(huì)富有情感的適時(shí)開玩笑。
另外,工作人員一邊要求 AI 助手講個(gè)故事,一邊不斷要求 AI 變化音色、語(yǔ)調(diào)、情感等等。AI 則像《 喜劇之王 》中的周星馳一樣,完美應(yīng)對(duì) “ 導(dǎo)演 ” 的每個(gè)需求。
同樣,AI 助手的視覺(jué)能力,也在演示現(xiàn)場(chǎng)驚艷了不少人。無(wú)論在是現(xiàn)場(chǎng)通過(guò)視頻,一步步指導(dǎo)工作人員解方程,還是通過(guò)攝像頭,觀察人的表情猜其心情,AI 助手幾乎都完美勝任。
在發(fā)布會(huì)中,他們還展示了 AI 助手的實(shí)時(shí)翻譯功能,在演示中 AI 意大利語(yǔ)和英文完美切換,基本感受不到任何時(shí)延。
知危編輯部上傳了發(fā)布會(huì)的完整視頻,搭配了機(jī)翻字幕,各位可以看看視頻演示效果,在驚艷的效果面前,我們的文字形容是十分蒼白的,請(qǐng)從視頻第 9:15 分開始觀看演示。( 時(shí)間倉(cāng)促,機(jī)翻字幕沒(méi)有進(jìn)行精校,導(dǎo)致英文字母有部分位置重疊、有一段意大利語(yǔ)機(jī)器識(shí)別為亂碼,但基本不影響對(duì)視頻的理解,給您帶來(lái)的體驗(yàn)不夠完美,抱歉 )
知危編輯部認(rèn)為本次發(fā)布會(huì)的另外一大亮點(diǎn),則是基于 GPT-4o 的桌面端 App,在發(fā)布會(huì)的現(xiàn)場(chǎng)演示中,用戶使用 ChatGPT 時(shí),不再需要面對(duì)這文本對(duì)話框做輸入。
你可以給 OpenAI 的桌面 App 分享屏幕,讓 AI 直接線上幫你解釋代碼、分析圖表,并且能通過(guò)語(yǔ)音與你實(shí)時(shí)溝通。只能說(shuō)老羅的 TNT 生不逢時(shí),在當(dāng)時(shí)確實(shí)缺少了大模型的賦能。
不過(guò),知危編輯部覺(jué)得最可怕的是,按照 OpenAI 官網(wǎng)的說(shuō)法:他們只是淺嘗輒止地探索了一番,做了些演示,連他們自己也沒(méi)完全搞清楚這個(gè)模型具體能做什么樣的事兒、上限在哪里。
例如簡(jiǎn)單生成圖片,還有圖片的風(fēng)格化,GPT-4o 似乎完全不在話下。
你也可以通過(guò)詳細(xì)的描述,讓 AI 做出相應(yīng)的設(shè)計(jì)圖片。
通過(guò)幾個(gè)簡(jiǎn)單描述和輸入,就輸出 3D 圖形,GPT-4o 似乎也能勝任。
甚至,它還能直接按照要求,輸出相應(yīng)的聲音。
以下是生成的聲音,可以點(diǎn)擊播放↓按照 OpenAI 的說(shuō)法,GPT-4o 的文本和圖像功能,今天開始就會(huì)在 ChatGPT 中推出,并給出了入口鏈接。而音頻功能,則需要經(jīng)過(guò)幾周乃至幾個(gè)月的安全評(píng)估,才會(huì)正式開放。
不過(guò),截至發(fā)稿前,知危編輯部所有擁有的 ChatGPT 賬號(hào)中,通過(guò)官方入口進(jìn)入后依舊只有 GPT-3.5 和 GPT-4 兩個(gè)選項(xiàng),不知是否是后臺(tái)還沒(méi)將功能上線完畢,所以我們暫未能給您帶來(lái)實(shí)測(cè)體驗(yàn)。
各位可以稍安勿躁,或許過(guò)幾個(gè)小時(shí),GPT-4o 就會(huì)上線完畢,我們就可以進(jìn)一步體驗(yàn)了。到這里,我們對(duì) GPT-4o 的快速介紹已經(jīng)完畢,相對(duì)于 “ 免費(fèi) ” 和 “ 更強(qiáng) ”,我們認(rèn)為這次更新最重要的是 “ 易用 ” 性。
我們認(rèn)為,最好用的工具,應(yīng)該讓你并不會(huì)感覺(jué)到它的存在。過(guò)去,手機(jī)和電腦固然大大的提高了我們工作生活的效率,但它們依然有一定的門檻,依然需要你想辦法去 “ 高效的輸入 ”。而這次,GPT-4o 真正的讓人與機(jī)器的交流變得絲滑,用語(yǔ)音和視頻這種最原始、簡(jiǎn)單的方式,使你你能獲得你想要的信息、做成你想要完成的事。
或許,我們可以把這稱之為 “ 大模型的 OS 化 ”,忘掉 Windows、MacOS、iOS 或是 Android 吧,在未來(lái),我們可能將不會(huì)接觸操作系統(tǒng),我們唯一需要的,就是對(duì)一臺(tái)機(jī)器說(shuō)話。
最后,我們放一個(gè) GPT-4o 通過(guò)視頻給兩個(gè)玩石頭剪子布的工作人員當(dāng)裁判的視頻,看了之后,你就明白什么是 “ Only OpenAI Can Do ” 了
本文由人人都是產(chǎn)品經(jīng)理作者【汪仔2083】,微信公眾號(hào):【知?!?,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自Unsplash,基于 CC0 協(xié)議。
- 目前還沒(méi)評(píng)論,等你發(fā)揮!