口述視頻,中國(guó)廠商參戰(zhàn)

0 評(píng)論 867 瀏覽 0 收藏 7 分鐘
🔗 技术知识、行业知识、业务知识等,都是B端产品经理需要了解和掌握的领域相关的知识,有助于进行产品方案设计和评估

過(guò)去半年,AI生成視頻一直被處于斷斷續(xù)續(xù)推進(jìn)狀態(tài),口述視頻也成為了中國(guó)廠商不斷入局的一大賽道。

視頻也能口述?這個(gè)正在奔現(xiàn)。

在OpenAI文生視頻大模型Sora發(fā)布后,國(guó)內(nèi)企業(yè)爭(zhēng)相入局,國(guó)產(chǎn)文生視頻大模型邁入加速階段。

過(guò)去半年,AI 生成視頻一直處在斷斷續(xù)續(xù)推進(jìn)的狀態(tài)。

號(hào)稱(chēng)國(guó)內(nèi)首個(gè)自研視頻大模型的 Vidu,以及后續(xù)字節(jié)、騰訊等多家國(guó)產(chǎn)廠商推出視頻生成模型,都在時(shí)不時(shí)引發(fā)外界的關(guān)注。

近日,又一國(guó)產(chǎn)視頻大模型加入戰(zhàn)局,快手“可靈”視頻生成大模型官網(wǎng)正式上線。

21日,快手可靈大模型發(fā)布重磅更新:正式開(kāi)放圖生視頻功能,支持將靜態(tài)圖像轉(zhuǎn)化為5秒鐘視頻,用戶(hù)可通過(guò)提示詞文本控制圖像中物體的運(yùn)動(dòng);同時(shí)推出視頻續(xù)寫(xiě)功能,支持對(duì)生成視頻一鍵續(xù)寫(xiě)和連續(xù)多次續(xù)寫(xiě),最長(zhǎng)可生成約3分鐘視頻。

相較此前各家放出的視頻大模型以展示視頻為主,本次亮相的可靈大模型不但效果對(duì)標(biāo)Sora,且已在快手旗下的快影App開(kāi)放邀測(cè)體驗(yàn)。

據(jù)快手方面介紹,可靈大模型為快手AI團(tuán)隊(duì)自研,采用Sora相似的技術(shù)路線,結(jié)合多項(xiàng)自研技術(shù)創(chuàng)新,其生成的視頻分辨率達(dá)1080p,時(shí)長(zhǎng)最高可達(dá)2分鐘(幀率30fps),支持自由的寬高比。

此外,官方還宣稱(chēng),可靈大模型能夠生成大幅度的合理運(yùn)動(dòng),并使其符合客觀運(yùn)動(dòng)規(guī)律。

在官方給出的視頻范例中,一位宇航員在月球上奔跑,隨著鏡頭慢慢抬升,宇航員的步態(tài)和影子都能保持合理恰當(dāng)。

幾乎同時(shí),美圖宣布將在7月底上線新品MOKI,該產(chǎn)品基于美圖奇想大模型的視頻生成能力,可幫助用戶(hù)生成AI短片。

然而, 也有觀點(diǎn)認(rèn)為,相比一擁而上的大語(yǔ)言模式,視頻大模型更慢熱,且少了巨頭的身影。

為什么會(huì)如此?

大廠們不感興趣嗎?

同時(shí),在上一輪大語(yǔ)言模型競(jìng)爭(zhēng)中,快手和美圖的存在感較低。

而在視頻大模型賽道,這兩家企業(yè)最大的優(yōu)勢(shì)又是什么?

對(duì)此,北京商報(bào)記者魏蔚和書(shū)樂(lè)進(jìn)行了一番交流,本猴以為:

還在沖刺“高考”的大廠,不會(huì)直接進(jìn)擊“博士后”。

做視頻,不是一堆圖組成PPT,大廠不急于這一塊發(fā)力,且實(shí)用性不強(qiáng),只是一個(gè)肌肉展示。

畢竟,視頻生成不是將一堆AI繪圖連在一起變成動(dòng)畫(huà)片。

除了考慮形象一致、符合描述、光影分割、分鏡表現(xiàn)等更多細(xì)節(jié)外,還有對(duì)劇情的理解能力、再創(chuàng)造能力。

這些都需要對(duì)視頻結(jié)構(gòu)、內(nèi)容解析、拍攝技巧和敘事手法等多個(gè)垂直領(lǐng)域進(jìn)行深度學(xué)習(xí)。

其難度遠(yuǎn)不是聊天、繪畫(huà)或?qū)>谙缕逯?lèi)靠數(shù)據(jù)堆積和用戶(hù)糾錯(cuò)來(lái)完成的。

即使是影視領(lǐng)域的大師也常有敗筆,讓還處在“高考階段”的人工智能出片,其難度可想而知。

但快手和美圖,則需要秀肌肉,哪怕只是一個(gè)秀。

快手也好,美圖也罷,在視頻大模型賽道上,最大的優(yōu)勢(shì)只是他們擁有讓人工智能深度學(xué)習(xí)的豐富“學(xué)習(xí)資料”。

依靠這些“學(xué)習(xí)資料”,可以規(guī)避一定的版權(quán)問(wèn)題,并且通過(guò)多年在視頻領(lǐng)域的內(nèi)容積累、垂直細(xì)分和標(biāo)簽標(biāo)注,都讓大模型能夠更好地“檢索”知識(shí),也讓其在算法設(shè)計(jì)上多少有一定的視頻專(zhuān)業(yè)素養(yǎng)。

但也僅此而已,在技術(shù)上依然缺少在人工智能算法上的原始積累。

此外,視頻大模型即使成熟,也很難在影視領(lǐng)域有大的突破。

無(wú)論是短劇、廣告還是長(zhǎng)視頻或電影,盡管都會(huì)內(nèi)卷“大片特效”。

但受眾最終被吸引的還是內(nèi)容(從編劇到運(yùn)鏡,以及演員演技)。

這些才是大規(guī)模商業(yè)變現(xiàn)的關(guān)鍵。

愚以為,視頻大模型或許更容易在動(dòng)畫(huà)領(lǐng)域找到一些商機(jī)。

本文由人人都是產(chǎn)品經(jīng)理作者【張書(shū)樂(lè)】,微信公眾號(hào):【張書(shū)樂(lè)】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!
专题
13294人已学习13篇文章
本专题的文章分享了关于教育+AI的思考。
专题
11828人已学习13篇文章
商业保理,即保付代理。本专题的文章分享了关于商业保理的讲解。
专题
12627人已学习14篇文章
各种大模型和AI绘画的产品层出不穷,在各行业也在尝试进行应用。在这个阶段,AIGC能实现些什么?本专题的文章分享了AIGC的应用。
专题
12583人已学习12篇文章
知识管理是什么?通常来看,想理解知识管理,可以从业务、管理、实施等视角切入。本专题的文章分享了如何做知识管理。
专题
18863人已学习13篇文章
画像标签是由数据标签经过分析、加工处理,形成的更加抽象、易于理解的复合标签。本专题的文章分享了如何设计用户标签体系。
专题
18579人已学习13篇文章
一款名为ChatGPT的聊天机器人引起了广泛关注,许多人由此思考ChatGPT究竟有多厉害。本专题的文章分享了对于ChatGPT的看法。