a16z認(rèn)為的下一個千億賽道來了!你知道嗎?
本文將深度剖析這一千億級賽道的技術(shù)躍遷路徑——從嘴型同步到全身動作捕捉,從情緒驅(qū)動到實(shí)時交互;揭示其商業(yè)落地場景如何覆蓋C端UGC創(chuàng)作、B端廣告自動化、企業(yè)級培訓(xùn)分身;并展望未來五年內(nèi)可能突破的五大技術(shù)瓶頸。
昨天的文章里講了兩個我做AI出海顧問期間遇到的兩個“比較坑”的產(chǎn)品方向兩個“特別坑”的AI產(chǎn)品創(chuàng)業(yè)方向,你知道嗎,今天再來講講我遇到比較好的一個方向,就是AI視頻這塊。
我合作過5家AI視頻類的公司,有專門做視頻生成的,也有做視頻剪輯的。這兩類算是不同賽道,但隨著技術(shù)進(jìn)步,從產(chǎn)品層面在逐漸融合。
視頻生成賽道比較典型的代表是Pika、Runway等產(chǎn)品,視頻剪輯賽吧典型代表是HeyGen、Opus Clip等產(chǎn)品。生成賽道一開始吸引人的點(diǎn)還是在于新鮮感,而視頻剪輯賽道,從AI虛擬人到長視頻剪短視頻、再到口型同步,還有直接生成AI UGC以及商品融合等等。
這個賽道很典型的特征就是市場足夠大,用戶需求很大,而且有不同人群的需求,比如純粹的創(chuàng)作者有創(chuàng)造需求,做增長的有營銷視頻需求,做銷售的有產(chǎn)品介紹視頻需求,甚至在創(chuàng)作者領(lǐng)域還可以再細(xì)分,比如專門面向播客人群,面向二次元人群等等。競爭也激烈,絕對是一個紅海賽道,但所幸市場足夠大,我合作過的視頻類產(chǎn)品,增長和營收都很不錯,因?yàn)榇_確實(shí)實(shí)帶來了新的生產(chǎn)力革命,整個用戶使用是完全閉環(huán)的。
當(dāng)AI不再只是“生成內(nèi)容”,而是“成為內(nèi)容”的一部分,一場內(nèi)容生產(chǎn)的革命就此開啟。
過去幾年,AI已經(jīng)能生成逼真的圖片、視頻和聲音,悄然通過視覺和聽覺的圖靈測試。但2025年最令人激動的突破,毫無疑問是——AI虛擬人(AI Avatar)。
這些不再“恐怖”的AI角色,正以驚人的速度沖出“恐怖谷”,開始全面滲透內(nèi)容創(chuàng)作、廣告營銷、企業(yè)培訓(xùn)等多個領(lǐng)域。這不僅是AI的一次技術(shù)躍遷,更是內(nèi)容產(chǎn)業(yè)的一次范式轉(zhuǎn)變。
今天正好看到a16z發(fā)了最新的一篇關(guān)于AI Avatar虛擬人這方面的報告,以下是精華信息總結(jié),給大家分享。
一、AI虛擬人研究的演化軌跡:從嘴型匹配到全身互動
真正的挑戰(zhàn)不是嘴巴動了,而是表情、頭部和身體的每一處細(xì)節(jié)是否同步、自然。
生成一個“會說話的臉”并不簡單。研究人員面臨的最大難題是:語音(phoneme)到嘴型(viseme)的精準(zhǔn)匹配,再加上面部肌肉、眼神、甚至上半身動作的自然聯(lián)動。
AI虛擬人技術(shù)近幾年突飛猛進(jìn),從最早的CNN、GAN,到NeRF、3DMM、Transformer、Diffusion模型,如今已發(fā)展到基于Transformer的擴(kuò)散模型(DiT)。最新代表作如ByteDance的 OmniHuman 和Hedra的 Character-3,已可實(shí)現(xiàn)逼真的半身/全身動作、表情同步、甚至環(huán)境互動。
二、AI虛擬人的“真實(shí)工作”:不是玩具,而是生產(chǎn)力工具
AI虛擬人不再只是好玩的技術(shù)展示,而是創(chuàng)造實(shí)際商業(yè)價值的工具,從消費(fèi)者內(nèi)容創(chuàng)作到企業(yè)培訓(xùn),都能看到它的身影。
1. 普通用戶:人人都能創(chuàng)造角色
一個圖 + 一段音頻 = 你的AI主播上線了!
從動漫角色、游戲人物、虛擬偶像,到播客主持人、AI主播,只需一張圖片+一段語音,用戶就能一鍵生成“會說話”的視頻。
代表產(chǎn)品如 Hedra,甚至能支持情緒指令控制角色表情;Runway、Viggle 還支持真人視頻驅(qū)動角色動作。YouTube 上《The Monoverse》系列就是一個全AI制作的代表作。
更令人期待的是,“實(shí)時對話”正逐漸成為現(xiàn)實(shí)。想象一下,未來的語言學(xué)習(xí)不再是冷冰冰的語音助手,而是一個有表情、有動作、有性格的“AI語言老師”。
2. 中小企業(yè):一鍵生成廣告
AI虛擬人最先在廣告領(lǐng)域爆發(fā)。相比傳統(tǒng)廣告拍攝,AI視頻創(chuàng)作無需演員、無需攝影棚、無需剪輯師,幾分鐘搞定一條高質(zhì)量短視頻。
工具如 Creatify、Arcads 支持輸入商品鏈接,自動生成腳本、畫面、BGM、AI演員,大幅降低廣告制作門檻?,F(xiàn)在,電商、游戲、App廣告中,AI人已經(jīng)隨處可見。
B2B企業(yè)也在跟進(jìn):Yuzu Labs、Vidyard 提供帶AI代言人的視頻外聯(lián)郵件、產(chǎn)品介紹、活動宣傳等內(nèi)容。
3. 大型企業(yè):培訓(xùn)與內(nèi)容本地化神器
企業(yè)層面,AI虛擬人應(yīng)用主要集中在:
- 培訓(xùn)視頻自動化:如 Synthesia 可生成入職培訓(xùn)、產(chǎn)品教程等內(nèi)容,節(jié)省人力;
- 多語言內(nèi)容本地化:配合 ElevenLabs 的AI語音翻譯,一條視頻可快速轉(zhuǎn)成多國語言;
- CEO分身:用AI復(fù)刻CEO形象,生成個性化溝通視頻,擴(kuò)大“高管影響力”。
三、AI虛擬人的技術(shù)組成:不僅是臉,還要有“靈魂”
要打造一個真正自然的AI虛擬人,需要攻克以下五大模塊:
此外,若要實(shí)現(xiàn)實(shí)時交互,還需:
- 大腦(記憶與對話):連接知識庫、具備個性與記憶;
- 低延遲流媒體傳輸:如 LiveKit、Agora 正在攻克該難題。
四、哪些痛點(diǎn)仍待突破??? 五個令人期待的未來發(fā)展方向
我親測后發(fā)現(xiàn),這個領(lǐng)域還有幾個激動人心的發(fā)展方向:
1. 角色變形和場景切換
不再局限于固定造型!想象一下,同一個角色可以:
- 在視頻中換裝、更換發(fā)型
- 從坐姿切換到站姿
- 從室內(nèi)場景切換到室外
- 擁有多種情緒狀態(tài)和姿勢供選擇
HeyGen已經(jīng)開始提供這項(xiàng)功能,他們的AI主持人Raul有20種不同的外觀和場景!
2. 更自然的表情和情感
AI能理解內(nèi)容情感,做出合適反應(yīng):
- 說到可怕的事情時表現(xiàn)出恐懼
- 聽到笑話時自然微笑
- 講述傷心故事時流露悲傷
- 根據(jù)語調(diào)自動調(diào)整表情強(qiáng)度
Captions新推出的Mirage模型在這方面取得了顯著進(jìn)步,表情范圍和自然度大幅提升。
3. 與現(xiàn)實(shí)世界互動
AI角色能”觸摸”周圍物品:
- 在廣告中拿起展示的產(chǎn)品
- 與屏幕上的圖表互動
- 指向背景中的特定元素
- 操作虛擬設(shè)備
Topview在這方面已經(jīng)取得了突破,他們開發(fā)了一種流程,允許AI角色在廣告中展示實(shí)際產(chǎn)品。
4. 全身動作與手勢表達(dá)
超越簡單的上半身動作:
- 自然的手勢配合語音內(nèi)容
- 走動、坐下等全身動作
- 舞蹈和復(fù)雜動作序列
- 根據(jù)性格特點(diǎn)定制動作風(fēng)格
目前Argil允許用戶為視頻不同部分選擇不同類型的肢體語言,但未來的技術(shù)將更加自然流暢。
5. 實(shí)時應(yīng)用的爆發(fā)
延遲和可靠性接近人類水平:
- 與AI醫(yī)生進(jìn)行視頻咨詢
- 與AI導(dǎo)購一起瀏覽產(chǎn)品
- 與你最喜歡的電視劇角色視頻聊天
- AI老師提供實(shí)時反饋和輔導(dǎo)
Tavus的最新模型已經(jīng)能夠?qū)崿F(xiàn)較低延遲的實(shí)時對話,我實(shí)際測試了與AI數(shù)字人的視頻對話,體驗(yàn)接近真人交流。
五、未來趨勢預(yù)測:AI虛擬人將成為千億級賽道
有人用它講故事,有人用它賣貨,有人用它打造自己的“數(shù)字分身”。
隨著底層模型質(zhì)量的顯著提升,AI虛擬人正從“看上去有點(diǎn)怪”走向“你甚至分不清真假”。
我們預(yù)計,內(nèi)容創(chuàng)作型AI的下一個風(fēng)口就是AI虛擬人。
- 做營銷的公司需要能自動寫腳本、選演員、生成廣告的視頻平臺;
- 做教育、講故事、創(chuàng)作IP的人,需要能管理角色、場景、剪輯的視頻創(chuàng)作工具;
- 企業(yè)則需要可大規(guī)模部署的培訓(xùn)、溝通、客戶服務(wù)解決方案。
這不再是“AI代替人類”,而是“每個人都能擁有自己的數(shù)字化表達(dá)分身”。多家公司已經(jīng)在這個領(lǐng)域嶄露頭角,可能會誕生多個十億美元級別的企業(yè)。關(guān)鍵在于找到特定的用例和目標(biāo)客戶,并圍繞它們構(gòu)建完整的工作流程。
結(jié)語:虛擬人類時代已經(jīng)開始
AI虛擬人不僅僅是一個“技術(shù)突破”,它代表著一個全新內(nèi)容表達(dá)方式的誕生。
當(dāng)你可以讓任何形象說話、表達(dá)、互動,我們正在進(jìn)入一個人人都是導(dǎo)演、每張圖都能開口說話的時代。?
本文由人人都是產(chǎn)品經(jīng)理作者【深思圈】,微信公眾號:【深思圈】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評論,等你發(fā)揮!