口述視頻,中國(guó)廠商參戰(zhàn)
過(guò)去半年,AI生成視頻一直被處于斷斷續(xù)續(xù)推進(jìn)狀態(tài),口述視頻也成為了中國(guó)廠商不斷入局的一大賽道。
視頻也能口述?這個(gè)正在奔現(xiàn)。
在OpenAI文生視頻大模型Sora發(fā)布后,國(guó)內(nèi)企業(yè)爭(zhēng)相入局,國(guó)產(chǎn)文生視頻大模型邁入加速階段。
過(guò)去半年,AI 生成視頻一直處在斷斷續(xù)續(xù)推進(jìn)的狀態(tài)。
號(hào)稱(chēng)國(guó)內(nèi)首個(gè)自研視頻大模型的 Vidu,以及后續(xù)字節(jié)、騰訊等多家國(guó)產(chǎn)廠商推出視頻生成模型,都在時(shí)不時(shí)引發(fā)外界的關(guān)注。
近日,又一國(guó)產(chǎn)視頻大模型加入戰(zhàn)局,快手“可靈”視頻生成大模型官網(wǎng)正式上線。
21日,快手可靈大模型發(fā)布重磅更新:正式開(kāi)放圖生視頻功能,支持將靜態(tài)圖像轉(zhuǎn)化為5秒鐘視頻,用戶(hù)可通過(guò)提示詞文本控制圖像中物體的運(yùn)動(dòng);同時(shí)推出視頻續(xù)寫(xiě)功能,支持對(duì)生成視頻一鍵續(xù)寫(xiě)和連續(xù)多次續(xù)寫(xiě),最長(zhǎng)可生成約3分鐘視頻。
相較此前各家放出的視頻大模型以展示視頻為主,本次亮相的可靈大模型不但效果對(duì)標(biāo)Sora,且已在快手旗下的快影App開(kāi)放邀測(cè)體驗(yàn)。
據(jù)快手方面介紹,可靈大模型為快手AI團(tuán)隊(duì)自研,采用Sora相似的技術(shù)路線,結(jié)合多項(xiàng)自研技術(shù)創(chuàng)新,其生成的視頻分辨率達(dá)1080p,時(shí)長(zhǎng)最高可達(dá)2分鐘(幀率30fps),支持自由的寬高比。
此外,官方還宣稱(chēng),可靈大模型能夠生成大幅度的合理運(yùn)動(dòng),并使其符合客觀運(yùn)動(dòng)規(guī)律。
在官方給出的視頻范例中,一位宇航員在月球上奔跑,隨著鏡頭慢慢抬升,宇航員的步態(tài)和影子都能保持合理恰當(dāng)。
幾乎同時(shí),美圖宣布將在7月底上線新品MOKI,該產(chǎn)品基于美圖奇想大模型的視頻生成能力,可幫助用戶(hù)生成AI短片。
然而, 也有觀點(diǎn)認(rèn)為,相比一擁而上的大語(yǔ)言模式,視頻大模型更慢熱,且少了巨頭的身影。
為什么會(huì)如此?
大廠們不感興趣嗎?
同時(shí),在上一輪大語(yǔ)言模型競(jìng)爭(zhēng)中,快手和美圖的存在感較低。
而在視頻大模型賽道,這兩家企業(yè)最大的優(yōu)勢(shì)又是什么?
對(duì)此,北京商報(bào)記者魏蔚和書(shū)樂(lè)進(jìn)行了一番交流,本猴以為:
還在沖刺“高考”的大廠,不會(huì)直接進(jìn)擊“博士后”。
做視頻,不是一堆圖組成PPT,大廠不急于這一塊發(fā)力,且實(shí)用性不強(qiáng),只是一個(gè)肌肉展示。
畢竟,視頻生成不是將一堆AI繪圖連在一起變成動(dòng)畫(huà)片。
除了考慮形象一致、符合描述、光影分割、分鏡表現(xiàn)等更多細(xì)節(jié)外,還有對(duì)劇情的理解能力、再創(chuàng)造能力。
這些都需要對(duì)視頻結(jié)構(gòu)、內(nèi)容解析、拍攝技巧和敘事手法等多個(gè)垂直領(lǐng)域進(jìn)行深度學(xué)習(xí)。
其難度遠(yuǎn)不是聊天、繪畫(huà)或?qū)>谙缕逯?lèi)靠數(shù)據(jù)堆積和用戶(hù)糾錯(cuò)來(lái)完成的。
即使是影視領(lǐng)域的大師也常有敗筆,讓還處在“高考階段”的人工智能出片,其難度可想而知。
但快手和美圖,則需要秀肌肉,哪怕只是一個(gè)秀。
快手也好,美圖也罷,在視頻大模型賽道上,最大的優(yōu)勢(shì)只是他們擁有讓人工智能深度學(xué)習(xí)的豐富“學(xué)習(xí)資料”。
依靠這些“學(xué)習(xí)資料”,可以規(guī)避一定的版權(quán)問(wèn)題,并且通過(guò)多年在視頻領(lǐng)域的內(nèi)容積累、垂直細(xì)分和標(biāo)簽標(biāo)注,都讓大模型能夠更好地“檢索”知識(shí),也讓其在算法設(shè)計(jì)上多少有一定的視頻專(zhuān)業(yè)素養(yǎng)。
但也僅此而已,在技術(shù)上依然缺少在人工智能算法上的原始積累。
此外,視頻大模型即使成熟,也很難在影視領(lǐng)域有大的突破。
無(wú)論是短劇、廣告還是長(zhǎng)視頻或電影,盡管都會(huì)內(nèi)卷“大片特效”。
但受眾最終被吸引的還是內(nèi)容(從編劇到運(yùn)鏡,以及演員演技)。
這些才是大規(guī)模商業(yè)變現(xiàn)的關(guān)鍵。
愚以為,視頻大模型或許更容易在動(dòng)畫(huà)領(lǐng)域找到一些商機(jī)。
本文由人人都是產(chǎn)品經(jīng)理作者【張書(shū)樂(lè)】,微信公眾號(hào):【張書(shū)樂(lè)】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自Unsplash,基于 CC0 協(xié)議。
- 目前還沒(méi)評(píng)論,等你發(fā)揮!