國內(nèi)的AI大模型們路走偏了吧!
從ChatGPT引起的AI爆火已經(jīng)2年了,國外已經(jīng)在系統(tǒng)型超級應(yīng)用的方向高歌猛進,而國內(nèi)則沒什么消息。拿移動互聯(lián)網(wǎng)作類比,安卓是重要也更基礎(chǔ),但其實可能沒有微信重要。那么,這條路真的對嗎?
在差不多10個月前寫的開源大模型LLaMA 2會扮演類似Android的角色么?和AI個體戶的崛起:普通人“屁胡”的機會、模式和風(fēng)險等文章里提出過AI產(chǎn)品落地的的三段論:大模型、系統(tǒng)型超級應(yīng)用、長尾工具。事隔10個月回頭再看,AI發(fā)展的走勢基本與此相同。其中大模型、長尾工具大家談?wù)摫容^多,這次還是專注于系統(tǒng)型超級應(yīng)用。核心原因是從各種新聞來看國外在這里已經(jīng)開始高歌猛進,像一個局點一樣,但國內(nèi)則相對安靜,似乎被錯過了??蛇@里才是AI應(yīng)用的重鎮(zhèn)。拿移動互聯(lián)網(wǎng)作類比,安卓是重要也更基礎(chǔ),但其實可能沒有微信重要。
一、什么是系統(tǒng)型超級應(yīng)用呢?
系統(tǒng)型超級應(yīng)用這類產(chǎn)品太復(fù)雜,實在不好理解,單純類比操作系統(tǒng)也還是不行,所以這次換個路數(shù),我們拿一個最近受眾比較多的App 豆包以及背后的大模型來做類比,在產(chǎn)品形態(tài)、業(yè)務(wù)模式等各方面說明下這類產(chǎn)品。需要的話大家也可以一邊操作一邊形成直觀感受。
豆包APP自身可以看成系統(tǒng)型超級用的面向C端的部分,但系統(tǒng)型超級應(yīng)用不是豆包APP。
系統(tǒng)是指操作系統(tǒng),超級應(yīng)用是指功能沒邊界。
一邊對各種硬件設(shè)備進行抽象靠驅(qū)動程序接入各種硬件。
一邊對應(yīng)用進行開放,在它之上可以開發(fā)Office,PS等各種應(yīng)用。
兩邊是被隔離的,做應(yīng)用的時候不需要關(guān)注硬件差異,可以無差別的使用硬件的功能或者計算機的計算能力。
系統(tǒng)型超級應(yīng)用首先具備這種系統(tǒng)特征。
那什么是超級應(yīng)用呢?微信如果沒有小程序、支付等一系列子功能而是只局限于IM,單是人多那不能被稱之為超級應(yīng)用。超級應(yīng)用一個特征固然是用戶龐大,更關(guān)鍵的是通過二次開放應(yīng)用商店,在功能上沒有邊界。
拿豆包這一簇產(chǎn)品做下類比,第一豆包大模型把各種算法完整進行封裝,比如識別、語音合成、大模型等,提供了一種AI的通用計算和算法調(diào)度能力,這是通用能力部分。其次你會發(fā)現(xiàn)它現(xiàn)在至少在一邊開放了技能商店(火山方舟/扣子)。APP的具體功能由技能來定義。
這個地兒不適合用“APP”這個詞形容可自定義的功能,確實用技能更合適。就好比一個機器人它上一秒鐘還不會開直升飛機,但裝載新技能后下一秒就可以了。對機器人而言這是一種技能。
另一邊如果參照操作系統(tǒng)其實是要投射到不同硬件上,這點豆包這一簇產(chǎn)品現(xiàn)在好像就覆蓋了手機和電腦,但這種基于自然語言的應(yīng)用對端上硬件的資源要求是非常低的,甚至可以放到只有1M內(nèi)存的設(shè)備上。這靠開放平臺來覆蓋會更適合,下面會說。(其實這里還得區(qū)分特征是屬于應(yīng)用的運行時還是屬于純粹的云服務(wù),小程序是微信的運行時技能,但有點復(fù)雜不展開了)
我們總結(jié)下這種系統(tǒng)型超級應(yīng)用的構(gòu)成,基本上是三位一體:
這里面容易被低估的可能是類似火山方舟這個位置的產(chǎn)品(CUDA大概是在這個位置),早期這個位置的產(chǎn)品絕對賠錢,很多時候還得靠降價來反哺它(看發(fā)布會豆包大模型把價格訂到:0.0008元/千Tokens,這確實是敢下狠手,比我在用的便宜很多很多。干的就是上面說的事)。但其實這里是通路也是標(biāo)準(zhǔn),培養(yǎng)粘性和鏈接的地方??磮蟮溃鹕椒街墼诔掷m(xù)升級從模型訓(xùn)練、推理、評測到精調(diào)的全方位服務(wù),還有插件以及工具鏈。打點其實是對的。
基于這個可以預(yù)測下面OpenAI的行為,它大概率會補自己直接的C端應(yīng)用(不是簡單套殼)。從GPT-4o的發(fā)布來看,OpenAI內(nèi)部似乎已經(jīng)統(tǒng)一了認識:往應(yīng)用方向整。這樣磕下去,科技巨頭里面估計會多一個,并且大概率會和Google直接碰撞,除非再有首席科學(xué)家起義。(有點像修仙,阻人成道了就一定會PK,和喜歡不喜歡沒有關(guān)系)。
二、系統(tǒng)型超級應(yīng)用的打法
我為什么看著好像還算了解這類產(chǎn)品呢?
因為我一度曾經(jīng)帶團隊設(shè)計了完整的這種超級應(yīng)用以及其打法,那產(chǎn)品和現(xiàn)在的豆包至少有60%的相似度……。(但實在干不動。別的都好說,這類產(chǎn)品太費錢了,再加上上代技術(shù)也沒那么成熟,最終搞不動了)
這類系統(tǒng)型超級應(yīng)用幾乎必然是To B和To C兩線同時著手。特別不單點極致,一般人可別整十死無生。
沒有C端的標(biāo)桿,沒人相信你能干好,對于這種基于新技術(shù)的新品類也沒人知道你在說啥。所以就需要一個豆包這樣的C端應(yīng)用做Pilot??磮蟮捞岬蕉拱麬PP月活2600萬,豆包大模型日均處理1200億Tokens文本,生成3000萬張圖片。這是很可怕的數(shù)字,智能音箱峰值的時候,每年出貨也就只有近4000萬臺,活躍更是遠遜(有的不足銷量的10分之1)。(當(dāng)年我們的C端產(chǎn)品叫:TA來了,說實話我覺得比豆包還好聽一些,但數(shù)實在不行)
而為了把這種能力投射到更多的設(shè)備里面就必然需要構(gòu)建開放平臺,既輸出能力也負責(zé)管理各種技能(應(yīng)用運行時的技能平臺和MaaS形式的輸出,前者只在用戶量級上來了才有意義)。
還要有一些共同依托的能力,否則沒有根基。當(dāng)年是一堆算法比如聲學(xué)的(可復(fù)制性最差,現(xiàn)在好像還沒解決),識別的,NLP的(過去可復(fù)制性也很差,現(xiàn)在基于大模型解決了),現(xiàn)在是豆包大模型這樣的新一代模型。里面看起來各種算法都打包進去了。
很多人可能沒注意的是包括大模型的這套算法核心計算其實在云上,端上要求的計算量極低,主要運行聲學(xué)算法等。前面提到你甚至可能在一個只有1M內(nèi)存的終端設(shè)備上把這種AI能力集成進去。也就是說這種能力可以下探到語音無屏的開關(guān)這類小設(shè)備。
這導(dǎo)致這種超級智能應(yīng)用先天的優(yōu)勢就是多設(shè)備投射,進行沉浸式計算。這時候各種設(shè)備平權(quán)不是以手機為中心。
當(dāng)前看起來豆包這些新一代超級應(yīng)用還沒去干這個事,確實也沒到這個時點,其它所有硬件設(shè)備加起來創(chuàng)造的日活的和可能也不如APP的十分之一。
這種系統(tǒng)型超級應(yīng)用要想干好,基礎(chǔ)能力和殺手型的技能都不能缺。
基礎(chǔ)能力搞不好有點浮沙筑高臺,房子很難蓋起來。(大模型還是很給力,一定程度上解決這問題)
技能搞不好有點像要蓋大房子但梁不給力,過去智能音箱搞不好核心就這問題。
什么是基礎(chǔ)能力呢?
這是領(lǐng)域本身定義的。比如如果是需要面向C端,TTS音色這個看著不重要的就和大模型的內(nèi)容生成一樣重要。GPT-4o在補這個,豆包大模型也在強化這個。
在APP里什么可以成為一個比較Killer的技能呢?
播音樂的這類功能的支撐度總是不夠強壯,之前景鯤帶著小度在家往教育做垂直應(yīng)該就是嘗試解決這個問題。
當(dāng)年我們做過類似《Her》的嘗試,很有趣的是豆包也選了它。
但新一代模型的效果實在好很多,從端點檢測的精度到語音識別再到TTS(音色)再到內(nèi)容生成。新一代技術(shù)比過去流暢太多了。
這里面有個叫《曖昧對象》的技能,真的差不多可以做陪聊天的服務(wù)了。(忘記是團隊那個產(chǎn)品同學(xué)認為最能有用的就是陪聊天,比放音樂有用,這是對的,奈何當(dāng)年算法不給力,做完連貫性不過關(guān))
這一組算法最終的效果是個乘法問題,每個都0.8最終一乘體驗就變0.5分。現(xiàn)在的識別精度,音色的流暢度和大模型的通用內(nèi)容生成乘在一起應(yīng)該還能剩下90分以上。如果不是你知道它是人工智能的情境下,已經(jīng)很難分得清這是人還是AI。
上一波人工智能創(chuàng)業(yè)里面,NLP公司心心念念的《Her》真的有人要做出來了,還附贈了和之前嘗試但不好使的聲音復(fù)刻功能(《黑鏡》那種男朋友沒了,現(xiàn)在看連聲音至少能做出一個70分的陪你聊天的他了…)。這比匹配意圖偶爾還得扣槽這種土鱉方式的開放式聊天實在是好太多了。
做過這個的可以試試,體驗下國內(nèi)最新進展。
上面我們拿豆包APP以及背后的豆包大模型做例子分解了一下系統(tǒng)型超級應(yīng)用的特征以及前者商業(yè)模式。
但系統(tǒng)型超級應(yīng)用可不只局限于豆包以及背后大模型所代表的B端、C端,而是有著更寬廣深遠的空間,更關(guān)鍵的其實是行業(yè)。最先能收支平衡的有可能也是行業(yè)。
字節(jié)跳動這種公司走OpenAI的路沒啥問題,但看起來好像所有做大模型的都跑這條路上來了。這就是標(biāo)題說的國內(nèi)AI大模型路可能走偏了。類似OpenAI這個地兒恐怕也沒那么大容量。從上面分解中也能看出這模式夸張的難度和資源需求。
三、系統(tǒng)型超級應(yīng)用可復(fù)制到更寬的領(lǐng)域么
有兩個新聞可以放在一起看:一個是DeepMind發(fā)布AlphaFold3,號稱為疾病治療和藥物研發(fā)開辟全新路徑;一個是Xaira公司融了10億美金。
這是什么呢?這是垂域大模型。(其實我不知道他們細節(jié),也許沒想的那么大,但不關(guān)鍵)
顯然的Deepmind并沒有因為OpenAI亂了陣腳,繼續(xù)在自己的路上死磕。但很可能收支平衡比OpenAI還快。
因為它真的影響行業(yè),重塑價值創(chuàng)造的過程。很多科學(xué)家會因為AlphaFold的調(diào)用次數(shù)和開放程度而造反,這反襯的正是影響力。那個國內(nèi)的AI大模型有這種行業(yè)影響力。
每一個這種垂域模型不太可能是一個單獨的裸的模型,在落地的時候總是要和現(xiàn)實的信息進行連接。
這點上我之前拿Watson舉過例子。
雖然沃森不成功,但這種簡單架構(gòu)上已經(jīng)清楚的表明這是行業(yè)的系統(tǒng)型超級應(yīng)用。
Watson固然是不成功,但真做出來呢?
那是真的會解決醫(yī)療行業(yè)的根本問題的,比如醫(yī)療資源不足的問題。
這才是新質(zhì)生產(chǎn)力。
想象一下,這些模型一旦達到AlphaGo在圍棋里面的程度,那整個行業(yè)就要圍著這個模型轉(zhuǎn)了。對應(yīng)行業(yè)會發(fā)生劇烈重整。
為什么提這個呢?
因為AI行業(yè)國內(nèi)真干大模型的同學(xué)的選擇好像都擠一塊去了。
受OpenAI刺激,很多團隊都跑去干類似chatGPT的大模型,然后自己從頭搞又特別費勁,所以往往會借助開源。在這個基礎(chǔ)上(相對通用的類似chatGPT模型)上包裝出行業(yè)大模型。好處是瞬間可以出好多,壞處是不解決行業(yè)深層次問題,最終很可能變成上波的賺方案的錢,然后收支失衡。(參見:為什么說這些倒騰AI的方式會把自己搞死)
真正的垂域大模型,那怕把法律搞清楚也是有用的(康達的李思川李律,視頻號:川哥說法,就和我聊過好幾次)。但門檻確實還是太高,直接拿通用大模型上能靠譜么,我不咋看好??涩F(xiàn)在看真做垂直的的反倒是不多。
四、垂域大模型和AGI
以前也寫過一點這個話題:chatGPT 和AlphaGo下圍棋,誰贏?垂域大模型有戲么?,現(xiàn)在仍然維持原來的觀點:在專門的領(lǐng)域尤其是價值比較高,有很多專業(yè)信息和知識的領(lǐng)域chatGPT這種代表AGI的模型是很難PK掉垂域模型的。
我是靠常識做這個判斷,很不權(quán)威。
常識是說一部分數(shù)據(jù)內(nèi)蘊了各種知識和規(guī)則,把這些數(shù)據(jù)的種類覆蓋的越全,這個模型的相應(yīng)的事能力也就越強大。通用大模型能力再強,沒有這部分信息,也會甕中之腦一樣空有智商。何況模型訓(xùn)練過程中總是可以產(chǎn)生很多的Know-How,這會進一步增加差距。
在很長一段時間里可能會是一個通用大模型,上面承載幾個類似豆包/火山方舟/豆包大模型這樣的超級應(yīng)用(比如搜索方向也可能出新的超級應(yīng)用)還有一些垂域大模型共同為不同的系統(tǒng)型超級應(yīng)用提供引擎。
五、小結(jié)
chatGPT屬于開局的點,我們把它刨除在外。那AI大模型真正的局點其實是這些系統(tǒng)型超級應(yīng)用,不是小團隊做的輔助工具。那誰在做這東西呢?也可能是我真的不知道,但如果確實沒有行業(yè)性的,而是都圍在了通用模型上,那可能會在AI的局點上缺席了不少東西。那不管對于VC還是真的從業(yè)者其實遺憾的事情。(當(dāng)年傅朱爭論過一場,從這個角度看實在是都偏了)
專欄作家
琢磨事,微信公眾號:琢磨事,人人都是產(chǎn)品經(jīng)理專欄作家。聲智科技副總裁。著有《終極復(fù)制:人工智能將如何推動社會巨變》、《完美軟件開發(fā):方法與邏輯》、《互聯(lián)網(wǎng)+時代的7個引爆點》等書。
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自 Unsplash,基于 CC0 協(xié)議
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
- 目前還沒評論,等你發(fā)揮!