從Agent到多模態(tài),大模型想要什么?
人類大腦皮層是相似的,但因為感知反饋處理內(nèi)容不同而分成了不同的功能區(qū)來處理聽覺、視覺和味道。OpenAI如果真的如預(yù)期在這條路上徹底跑通商業(yè)模式,那無疑是對整個行業(yè)的最大刺激,也會給自己打下超級巨頭的堅實基礎(chǔ)。
OpenAI 9.25發(fā)了個關(guān)于多模態(tài)版本的Blog說chatGPT現(xiàn)在能夠看、聽、說了,體驗過的同學(xué)反饋還不錯,那這意味著什么?
一、應(yīng)用>純粹的智能改進(jìn)
同純粹的智能提升相比多模態(tài)是一種應(yīng)用可能性的提升。如果說原本的大模型甕中之腦,那多模態(tài)無疑是把給這個甕中之腦接上和現(xiàn)實世界相聯(lián)的觸角。
從技術(shù)上,這意味著之前這是在多種算法的綜合上發(fā)力,而不是單純的強調(diào)智能這一個維度。這種銜接在過去其實是吃力的,OpenAI看起來也沒把這問題解決的特別好,所以在文章中貼了這么一小段:
這啥意思呢?其實是說語音識別通用度不好,反過來推測一點就是語音識別還沒有自己的大模型。希望OpenAI能在這種綜合和銜接上取得進(jìn)展。
值得一提的是,這種方向和很多人心心念念的GPT5是不完全重疊的,GPT5更像是讓甕中之腦更為強大,而多模態(tài)綜合則是讓現(xiàn)有大腦的智力得到更好的發(fā)揮。如果OpenAI貼著多模態(tài)走,那意味著他們在戰(zhàn)略上把應(yīng)用放到了更前面。這是對的,并且和人類的大腦產(chǎn)生智能的情況更貼近。人類大腦皮層是相似的,但因為感知反饋處理內(nèi)容不同而分成了不同的功能區(qū)來處理聽覺、視覺和味道。
OpenAI如果真的如預(yù)期在這條路上徹底跑通商業(yè)模式,那無疑是對整個行業(yè)的最大刺激,也會給自己打下超級巨頭的堅實基礎(chǔ)。
從應(yīng)用上這意味著應(yīng)用范圍的拓寬。那里需要多模態(tài)呢?顯然是物理空間。純粹的甕中之腦其實是把應(yīng)用局限在數(shù)字空間,而多模態(tài)則打通數(shù)字和物理世界。最直接的,這類能力會激活多模態(tài)的應(yīng)用。
典型的多模態(tài)應(yīng)用是什么呢?是PokemanGo。介于純粹的數(shù)字世界和純粹的物理世界之間就是這種增強現(xiàn)實的場景,沒多模態(tài)這類應(yīng)用根本玩不轉(zhuǎn)。
在過去這做起來成本太高了,算法的綜合像一道天塹一樣,讓只有很少的公司才能做,而做的人里面只有很少的人才能成功,而綜合后的大模型如果能削減這個壁壘,那顯然的這類應(yīng)用就可以像當(dāng)年的App一樣,只承擔(dān)產(chǎn)品化的部分,進(jìn)而迎來自己的大普及。
但多模態(tài)的路線所影響的卻不只是這類增強現(xiàn)實應(yīng)用,它的影響需要放在整個AI產(chǎn)品化進(jìn)程的角度來看,才更清楚。
過去十年AI的創(chuàng)業(yè)其實是失敗的,但核心的好處是讓我們把所有的坑都趟了一遍,更容易在這些失敗的基礎(chǔ)上,看清和經(jīng)營未來的現(xiàn)實。
(華為的戰(zhàn)略從側(cè)面反映過去這十年硬應(yīng)用的探索,重點可以回想N)
二、背后隱含的產(chǎn)品路線
我們畫下不精確的產(chǎn)品路線圖。
遞進(jìn)次序是純粹數(shù)字空間,數(shù)字和物理空間融合,硬件產(chǎn)品,機電類產(chǎn)品,另一個軸是智能的多模態(tài)程度,如:單一維度的通用智能和多模態(tài)的通用智能,那產(chǎn)品分布會是:
如果再加個維度,每一類中再有兩類:一類是幻覺無礙的,一類是需要解決幻覺問題的。
那么很可能就可以得到這次大模型驅(qū)動的產(chǎn)品落地的次序。產(chǎn)品上會從軟應(yīng)用到硬應(yīng)用再到機械應(yīng)用,特征上會從幻覺有益到需要對沖。
這么說可能不容易懂,我們拿過去的產(chǎn)品做個類比(嘗試的好處就這么出來了,可以舉例子)。
同樣是對話,客服是軟應(yīng)用,智能音箱是硬應(yīng)用,招待機器人則是機械應(yīng)用。
這些產(chǎn)品看著超級像,但每加一部分外延都導(dǎo)致游戲規(guī)則有巨大變化。
軟應(yīng)用的輸入相對容易標(biāo)準(zhǔn)化,到硬應(yīng)用則變的麻煩,在語音上過去我們用近場和遠(yuǎn)場來形容這種差異。都是對話,需不需要解決環(huán)境干擾問題導(dǎo)致的產(chǎn)品復(fù)雜度會有巨大差異。到現(xiàn)在為止,智能音箱其實也沒徹底解決這問題,你在邊上放電視它一樣會變不好使。
類似的準(zhǔn)備好圖片的人臉識別和真實場景的人臉識別有同樣問題。后者沒準(zhǔn)就需要在光線沒那么好的情景下處理問題。
硬應(yīng)用同機械應(yīng)用比自身的穩(wěn)定性會形成更多問題。比如機器人突然間脖子扭的角度不對,或者一條狗跑來跑去的時候腿瘸了,即使還是能夠聽說,那產(chǎn)品體驗也會出現(xiàn)巨大起伏。
詳細(xì)挖掘差異還會有很多,也許看著沒那么大,但真做產(chǎn)品這種細(xì)小差異是忽略不得的。
如果把純粹數(shù)字的新特征比喻成是一個巨大的氫氣球,可以四處亂跑,成本不高。那硬應(yīng)用差不多相當(dāng)于掛塊磚頭,機械應(yīng)用則像掛一個小鉛球。掛的東西論體積遠(yuǎn)不如氣球,但對氫氣球能不能飛起來影響是巨大的。
為了它能飛起來,最好的辦法是尊重新的環(huán)境條件,然后配個大引擎變成飛機。而變飛機顯然是個系統(tǒng)工程。
上面這種產(chǎn)品分類正好也就是Agent的分類。多模態(tài)的進(jìn)展同樣會打開Agent的范圍。真做這類產(chǎn)品,打造自己的飛機,核心依賴會是什么呢?
參照:AI Agent:大模型與場景間的價值之橋,但不適合當(dāng)純技術(shù)看
三、回到系統(tǒng)型超級應(yīng)用:多模態(tài)Agent的典型架構(gòu)
典型Agent的運行狀態(tài)是這樣:
這看著很常識,但其實帶來一個巨大挑戰(zhàn)。
你的多模態(tài)大模型是統(tǒng)一的,但你的應(yīng)用是分散的(單一產(chǎn)品的集成這問題不大,但那反倒是特例)。
大模型的通用能力,需要一種通用的通路才能很好的輸出去,否則就像武俠小說里說的內(nèi)功很好,但經(jīng)脈很差,沒的發(fā)揮。
為了把這種通用能力發(fā)揮出去,最關(guān)鍵的就是需要對感知一側(cè)進(jìn)行通用的抽象和管理。
這里面有個依賴次序,各種應(yīng)用本質(zhì)上依賴多模態(tài)大模型,但多模態(tài)大模型依賴多模態(tài)的感知。
這種依賴遞進(jìn)影響什么呢?
影響特征的傳導(dǎo)次序,本質(zhì)上被依賴方的特征會傳導(dǎo)到后者去,后者只能扛著。反向傳播則影響要小的多。
比如多模態(tài)感知在產(chǎn)品上肯定具現(xiàn)成五花八門各種產(chǎn)品,然后數(shù)據(jù)從各種傳感器來,傳感器會完成模擬到數(shù)字的轉(zhuǎn)化,所以出來的基本都是結(jié)構(gòu)化數(shù)據(jù)。
這就導(dǎo)致必然出現(xiàn)過去操作系統(tǒng)中的硬件抽象層,是個傳統(tǒng)工作要解決基礎(chǔ)架構(gòu)問題,要有一個抽象層覆蓋五花八門的設(shè)備。
多模態(tài)應(yīng)用則要充分利用大模型的特征,這時候接口形態(tài)都會發(fā)生巨大變化。會從傳統(tǒng)的API一點點變成現(xiàn)在的NLI。你需要適應(yīng)大模型的基礎(chǔ)特征,比如面對前面提到的幻覺問題。API的調(diào)用值是變化的,但它的Schema是穩(wěn)定的,是在限定的Schema下返回各種值。但NLI,則Schema也是打開的。這就不好應(yīng)對需要確定結(jié)果的場景。是真正的挑戰(zhàn)。
分層并分割這種應(yīng)用后得到什么呢,會得到系統(tǒng)型超級應(yīng)用。
參照:AI個體戶的崛起:普通人“屁胡”的機會、模式和風(fēng)險
四、系統(tǒng)型超級應(yīng)用的極簡例子
我們舉個最簡單的例子:
假設(shè)你想給自己做個數(shù)字分身,打理自己在各個平臺上的活動。
那么對個人而言,你需要創(chuàng)建基本人設(shè)、風(fēng)格(風(fēng)格要考慮目標(biāo)平臺場景的特征)等。你的應(yīng)用基于這種人設(shè)通過NLI和大模型進(jìn)行交互產(chǎn)出對應(yīng)的圖文、視頻等內(nèi)容。
內(nèi)容產(chǎn)出后希望能覆蓋抖音、視頻號等,那這部分要能自動操作對應(yīng)的平臺,并從對應(yīng)平臺抓取反饋再進(jìn)行進(jìn)一步的產(chǎn)出。這部分操作和反饋的方式其實是平臺定義的。
這時候就會發(fā)現(xiàn)多模態(tài)大模型的能力是共通的,人設(shè)是共通的,但平臺相關(guān)操作是個性化的,所以如果真想做簡單了,那就需要區(qū)隔這三層,通用大模型給平臺操作部分的指令總是:發(fā)布XX,平臺操作部分的反饋總是,當(dāng)前評論是XX,還是API和HAL的范疇。但基于人設(shè)、風(fēng)格、熱點等產(chǎn)出內(nèi)容的部分則完全不一樣了,肯定是要走NLI的。典型的操作系統(tǒng)三層分割,但面向應(yīng)用一端接口會有很大變化。
五、小結(jié)
和朋友閑聊時有時會說提到:如果放在一個大的時間軸上看,那么起于百余年前的社會變革其實遠(yuǎn)未結(jié)束,而我們猶在變革之中等待下一個穩(wěn)定態(tài)。同樣的把時間刻度縮小,再把這個視角挪回來看人工智能那其實是一樣的,過往一切關(guān)于智能硬件的嘗試都會換個樣子重來,螺旋遞進(jìn),尋找自己下一個穩(wěn)定的形式。
專欄作家
琢磨事,微信公眾號:琢磨事,人人都是產(chǎn)品經(jīng)理專欄作家。聲智科技副總裁。著有《終極復(fù)制:人工智能將如何推動社會巨變》、《完美軟件開發(fā):方法與邏輯》、《互聯(lián)網(wǎng)+時代的7個引爆點》等書。
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自 Unsplash,基于 CC0 協(xié)議
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
- 目前還沒評論,等你發(fā)揮!