看了Sora,感覺(jué)短視頻要懸了!
Sora其實(shí)并不單是文生視頻,它其實(shí)是一個(gè)世界模型。在3D內(nèi)容的生成成本被大模型拉下來(lái)以后,真正應(yīng)該瑟瑟發(fā)抖的,正是現(xiàn)在如火如荼的短視頻世界。
Sora發(fā)布也不少天了,按說(shuō),作為一名二手科學(xué)家,咱也得蹭熱度聊聊。可是看著各路自媒體花式的震驚、反思和賣(mài)課,我有點(diǎn)不知所措,這都是扯啥呢?
我對(duì)這些不感興趣,不過(guò),那幾段demo視頻擼了一遍又一遍,再想起在MSRA做AI時(shí)的一些經(jīng)歷,我有點(diǎn)醒攢兒了:您還真以為這東西是為了幫大家水視頻用的么?不是!照這個(gè)路數(shù)下去,以視頻為主的社交網(wǎng)絡(luò)媒介形式,可能要被連鍋端了!
這并非危言聳聽(tīng),咱們先從大家熱議的“世界模型”說(shuō)起。
一、“世界模型”到底是啥
看了Sora,您有什么最深切的感受?我在擼了九九六十四遍以后,突然感到有點(diǎn)毛骨悚然:與Runway、Pika那些競(jìng)品“帕金森”風(fēng)格的視頻相比,這些視頻里的物理結(jié)構(gòu),也太TM穩(wěn)定真實(shí)了!
您看看下面這段無(wú)人機(jī)穿越大斗獸場(chǎng)遺跡的視頻:所有的建筑物幾何結(jié)構(gòu),全程沒(méi)有扭曲、沒(méi)有變型、沒(méi)有坍塌。
再看看這段咖啡杯里的海盜船視頻,多么流暢自然的流體運(yùn)動(dòng)!一點(diǎn)兒也看不出跟我們熟悉的物理規(guī)律不符之處!做過(guò)計(jì)算機(jī)圖形學(xué)的都知道,水、霧、風(fēng)這些非剛體的運(yùn)動(dòng)畫(huà)面模擬,那是多么困難的任務(wù)。
這說(shuō)明了什么?Sora絕不是在二維框里做建模,把像素生成出來(lái)了事!它一定是通過(guò)大模型,對(duì)世界和物體的三維形態(tài)、運(yùn)動(dòng)規(guī)律有了統(tǒng)計(jì)意義上的理解,并且具備了不錯(cuò)的泛化能力。然后,將它再投射回二維平面中,得到一段視頻的。這就是我理解的“世界模型”。當(dāng)然,這里的投射,是通過(guò)大模型的推理,而非傳統(tǒng)的CG渲染。
也就是說(shuō),Sora腦子里的世界,是三維的、立體的、運(yùn)動(dòng)的。而平面的視頻框,其實(shí)限制了它的表達(dá)力!
不信,您看看下面這段demo,同一個(gè)場(chǎng)景,生成了五段多機(jī)位下的視頻,您說(shuō)說(shuō)Sora背后對(duì)世界的理解,能是一個(gè)框一個(gè)框分別往里填的么?
那位說(shuō)了,你扯這些有卵用?我管Sora背后咋看世界的,反正最后不還是生成一段視頻么!這么想,格局真的小了!既然它腦子里的世界是立體的,那就存在對(duì)現(xiàn)有的短視頻形態(tài)降維打擊的可能!
二、Sora真正的顛覆意義
世界模型有啥用?對(duì)短視頻有啥影響?這跟得從前些日子的另一個(gè)熱點(diǎn)產(chǎn)品說(shuō)起——蘋(píng)果的VisionPro。
這東西,酷倒是挺酷,但是目前很難普及。因?yàn)椋?strong>VR世界對(duì)內(nèi)容的巨大渴求,靠傳統(tǒng)的3D內(nèi)容生產(chǎn)方式,根本就滿(mǎn)足不了!
生產(chǎn)3D內(nèi)容的經(jīng)典方法,是參數(shù)建模:建模師在電腦上進(jìn)行參數(shù)和特征輸入,生成對(duì)應(yīng)的模型對(duì)象,簡(jiǎn)單理解就是在電腦上“捏泥人”。“泥人”是捏出來(lái)了,但是一顰一笑極其僵硬,跟提線(xiàn)木偶戲一樣。而且,弄一個(gè)模型,得累死兩個(gè)設(shè)計(jì)師。
有沒(méi)有簡(jiǎn)單自然點(diǎn)的方法?動(dòng)作捕捉。像下圖這樣,演員穿著一身數(shù)字盔甲,完成一串動(dòng)作,再通過(guò)計(jì)算機(jī)視覺(jué)和運(yùn)動(dòng)模型完成3D內(nèi)容生產(chǎn)??墒沁@成本依然很高,沒(méi)設(shè)備你還玩不了。
有沒(méi)有高科技一點(diǎn)的方法呢?看過(guò)超級(jí)碗(superbowl)的朋友應(yīng)該知道,人家轉(zhuǎn)播時(shí)有個(gè)“全視角回放”,這是咋弄的呢?簡(jiǎn)單來(lái)說(shuō),就是在比賽場(chǎng)地360度無(wú)死角安一堆高清攝像頭,再基于幾何拼接重建3D視頻。當(dāng)年,我在微軟研究院上班時(shí),當(dāng)時(shí)的院長(zhǎng)沈向洋博士,就對(duì)這項(xiàng)技術(shù)有不少貢獻(xiàn)。
那么現(xiàn)在有了Sora,情況有什么根本變化呢?再也不用架那么多攝像機(jī),無(wú)死角地捕捉圖像用于拼接了!從演示來(lái)看,大模型見(jiàn)過(guò)的東西太多,已經(jīng)有了類(lèi)似于人類(lèi)的泛化能力:咱們看到金字塔的正面,背面是啥樣大概也能猜出來(lái),大模型對(duì)各種概念、物體得形態(tài)和細(xì)節(jié)的把握,也接近這個(gè)程度了。那您想想,將來(lái)3D內(nèi)容的生產(chǎn),是不是只要幾張照片、一兩個(gè)攝像頭,交給世界模型自個(gè)腦補(bǔ),就搞定了?如此一來(lái),3D內(nèi)容的爆發(fā)也就不遠(yuǎn)了,您說(shuō)這玩意有沒(méi)有用?
有人跟我抬杠:我沒(méi)有Vision Pro,就一個(gè)手機(jī),3D內(nèi)容有啥意義呢?其實(shí),手機(jī)這樣的平面媒介上,三維內(nèi)容也好玩,而且有用!
比如您要買(mǎi)房,網(wǎng)站上要是有VR看房,能在房子里轉(zhuǎn)悠的,是不是內(nèi)部情況一覽無(wú)余?這比對(duì)著圖片和視頻腦補(bǔ)方便多了吧!再比如電商購(gòu)物,想換個(gè)沙發(fā),對(duì)著干巴巴的圖文越看越眼暈??墒乾F(xiàn)在,電商網(wǎng)站的部分產(chǎn)品有了3D物品展示功能,是不是跟去線(xiàn)下實(shí)體店看沙發(fā)差不多了?
所以說(shuō),如果您還認(rèn)為Sora只是高效生成視頻的工具,那么只能說(shuō)格局小了。視頻,本來(lái)就是Sora世界模型的副產(chǎn)品。未來(lái),算力更強(qiáng)大,模型更完善,它可以真正實(shí)現(xiàn)低成本、高還原度地提供三維內(nèi)容,這才是顛覆性的新場(chǎng)景!
將來(lái),房產(chǎn)銷(xiāo)售隨手拍幾張照片,就可以生成流暢的VR看房模型,或者再虛擬裝修一些生成演示視頻;導(dǎo)演拿相機(jī)拍幾張分鏡圖,完整的3D電影片段就自動(dòng)生成出來(lái)了。
等VR世界的內(nèi)容大規(guī)模爆發(fā)的那一天,長(zhǎng)腿小姐姐可以繞著你跳舞了,不坐飛機(jī)就能漫游吳哥窟了,甚至人人都可以根據(jù)自己的想象,創(chuàng)造出有趣的場(chǎng)景和物品讓人觀賞。您想想,這是不是比二維世界里的短視頻,要聲色犬馬、紙醉金迷得多?在荒淫娛樂(lè)方面,一向覺(jué)悟甚高的人民群眾,會(huì)選擇哪個(gè)、拋棄哪個(gè),您心里沒(méi)點(diǎn)數(shù)么?
所以,在3D內(nèi)容的生成成本被大模型拉下來(lái)以后,真正應(yīng)該瑟瑟發(fā)抖的,正是現(xiàn)在如火如荼的短視頻世界。
三、普通人的機(jī)會(huì)在哪里
本來(lái),聊到這兒就該收尾了,但是老有些焦慮的同行來(lái)問(wèn):AI這么牛逼了,我們還有出路么?所以再多說(shuō)兩句。
先說(shuō)說(shuō)影視、游戲、廣告這些創(chuàng)意行業(yè)。Sora的出現(xiàn),帶來(lái)了很大的想象空間?,F(xiàn)在,只要給一段文字描述,或幾張圖片,就可以自動(dòng)生成一條視頻素材。但是,目前來(lái)看,要在商業(yè)領(lǐng)域大規(guī)模應(yīng)用,還要有點(diǎn)“最后一公里”的工具。
這是因?yàn)?,大模型還不能很好的建模因果性和邏輯性較強(qiáng)的場(chǎng)景。比如,這個(gè)女子走在大街上的視頻,可以看到她身后的廣告牌和店鋪招牌都是鬼符,而第二個(gè)視頻里,杯子打碎的情況明顯違反物理規(guī)律。因此,實(shí)用中,必須要有一個(gè)視頻修改和元素替換的AI工具,解決品牌形象植入,文字和形象替換等問(wèn)題,才能得到真正有用的素材。當(dāng)然,我覺(jué)得這工具很快就會(huì)有的。
然后呢?咱們就可以混吃等死了么?有什么新技能要培養(yǎng)呢?
我真心覺(jué)得,大家沒(méi)必要追著AI工具走。因?yàn)锳I的目的,就是要降低這些工具的使用門(mén)檻,隨著它們不斷迭代,你學(xué)的那些使用技巧,很快就不需要了。
比如,電腦剛在中國(guó)普及的時(shí)候,興起了一波五筆輸入法的培訓(xùn)和學(xué)習(xí)狂潮,可是隨著技術(shù)發(fā)展,中文輸入法越來(lái)越成熟,現(xiàn)在你看,還有人專(zhuān)門(mén)學(xué)五筆么?
還有,零幾年那會(huì)兒Google剛興起時(shí),市面上可是有很多“精通搜索引擎”的培訓(xùn)班的!現(xiàn)在再回頭看,簡(jiǎn)直有點(diǎn)行為藝術(shù)了。
我的觀點(diǎn),大家更應(yīng)該培養(yǎng)“與AI垂直的能力”。比如您是視頻相關(guān)從業(yè)者,那么您需要培養(yǎng)的是,還是劇本創(chuàng)作、場(chǎng)景規(guī)劃這些策略性的能力——工具發(fā)展得越快,這些能力就越寶貴。
當(dāng)然,當(dāng)下最重要的大策略,還是如何理解和把握AI帶來(lái)的趨勢(shì)性機(jī)會(huì)。其實(shí),如同第一次工業(yè)革命的蒸汽時(shí)代,和第二次工業(yè)革命的電力時(shí)代,當(dāng)產(chǎn)能更高、效率更高的革命性產(chǎn)品出現(xiàn)的時(shí)候,潮流是不可逆的。
在信息時(shí)代,信息傳播載體經(jīng)歷了由文字到圖像到視頻變遷過(guò)程,當(dāng)Sora這樣跨時(shí)代的產(chǎn)品出現(xiàn)的時(shí)候,互聯(lián)網(wǎng)的信息傳播的載體也必將會(huì)拉開(kāi)由二維內(nèi)容向三維內(nèi)容升級(jí)的序幕。以此為契機(jī),在其中尋找工具、平臺(tái)和內(nèi)容的新機(jī)會(huì),只有我們想不到,沒(méi)有什么不可能。
作者:大數(shù)據(jù)仁波茄,公眾號(hào):計(jì)算廣告(ID:Comp_Ad)
本文由@計(jì)算廣告 授權(quán)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來(lái)自 Sora 官網(wǎng)演示視頻截圖
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)
- 目前還沒(méi)評(píng)論,等你發(fā)揮!