以假亂真?AI數(shù)字人+外語(yǔ)學(xué)習(xí)功能讓用戶“相見(jiàn)恨晚”

0 評(píng)論 5788 瀏覽 3 收藏 15 分鐘

AI大模型正在被應(yīng)用于大量行業(yè)與具體場(chǎng)景之中,其中,教育場(chǎng)景下的口語(yǔ)學(xué)習(xí)板塊,也延伸出了相應(yīng)的大模型應(yīng)用,搭配日益成熟的數(shù)字人技術(shù),AI大模型或許可以在教育場(chǎng)景里掀起新的變化。一起來(lái)看看本文的分享。

一項(xiàng)技術(shù)能否發(fā)揮自身價(jià)值和作用,很大程度取決于它在應(yīng)用場(chǎng)景的選擇?,F(xiàn)在,AI大模型在各行各業(yè)得以應(yīng)用,如今更是將戰(zhàn)場(chǎng)延伸到了教育領(lǐng)域中的口語(yǔ)學(xué)習(xí)板塊。

當(dāng)喜歡的外語(yǔ)片段可以通過(guò)AI生成貼近原聲且準(zhǔn)確的對(duì)口型翻譯,或與AI數(shù)字人進(jìn)行一對(duì)一對(duì)話和外語(yǔ)口語(yǔ)練習(xí),面部表情生動(dòng)而真實(shí),如此具有真實(shí)感的AI,能成為用戶在學(xué)習(xí)方面的強(qiáng)力助手嗎?

一、完全對(duì)口型翻譯?HeyGen平臺(tái)讓AI數(shù)字人更生動(dòng)

近段時(shí)間,小紅書(shū)博主“johnhuu 教英語(yǔ)”發(fā)布的一條視頻引起海內(nèi)外的社交媒體紛紛刷屏轉(zhuǎn)發(fā)。

視頻中將泰勒·斯威夫特、艾瑪·沃特森和“憨豆先生”的演員羅溫·艾金森的原聲視頻通過(guò)AI技術(shù)翻譯內(nèi)容并轉(zhuǎn)化成與本人聲音相似的普通話,并同步修改口型生成新的視頻。

除了英文原聲轉(zhuǎn)中文,博主還反過(guò)來(lái),使用蔡明的講話片段實(shí)現(xiàn)了流暢的中文轉(zhuǎn)英文。生成后的視頻的仿真程度令人震驚,沒(méi)有傳統(tǒng)譯制片配音的腔調(diào),聲音也很“貼臉”,更像是本人在用中文說(shuō)話。

也有網(wǎng)友表示了對(duì)AI技術(shù)仿真程度越來(lái)越高且難以辨別的擔(dān)憂,博主表示“目前也不是一鍵搞定的事情,分好幾個(gè)步驟,翻譯,聲音克隆和換嘴,每一個(gè)步驟都要做到到頂尖才能夠毫無(wú)破綻?!?/p>

在HeyGen的官方X(原推特)轉(zhuǎn)發(fā)上,也能看到不少使用HeyGen實(shí)現(xiàn)八國(guó)語(yǔ)言流暢切換的案例。

多數(shù)網(wǎng)友表示:普遍感覺(jué)翻譯基本準(zhǔn)確,但細(xì)節(jié)仍需要根據(jù)上下文進(jìn)行細(xì)微調(diào)整;目前更像是“直譯”而不是“本地化翻譯”,但已經(jīng)足夠理解視頻所述內(nèi)容。盡管如此,網(wǎng)友們還是扒到了擁有如此精細(xì)的“AI對(duì)口型”能力的視頻生成工具HeyGen,其背后的公司是一家總部位于深圳的AI內(nèi)容生產(chǎn)系統(tǒng)開(kāi)發(fā)商,詩(shī)云科技。

據(jù)了解,詩(shī)云科技的聯(lián)合創(chuàng)始人兼CEO徐卓(Joshua Xu),碩士畢業(yè)于卡內(nèi)基梅隆大學(xué)計(jì)算機(jī)專(zhuān)業(yè),本科畢業(yè)于同濟(jì)大學(xué)自動(dòng)化專(zhuān)業(yè),是Snapchat前100號(hào)員工(2014 – 2020)、廣告事業(yè)部No.2工程師,核心技術(shù)Leader;曾在6年間從0到1搭建Snapchat廣告平臺(tái)、推薦算法系統(tǒng)以及機(jī)器學(xué)習(xí)平臺(tái)Barista(百億級(jí)數(shù)據(jù)), 并負(fù)責(zé)AI Camera的技術(shù)及產(chǎn)品研發(fā)。

圖源:X(原推特)

他認(rèn)為:“視頻翻譯對(duì)于YouTube用戶和教育部門(mén)來(lái)說(shuō)有著關(guān)鍵作用。試想一下:打破語(yǔ)言障礙能讓全世界的人都可以訪問(wèn)視頻內(nèi)容,而不僅僅是那10%的英語(yǔ)用戶……但如果有這樣一個(gè)平臺(tái),每段視頻都可以用任何語(yǔ)言觀看,而且像母語(yǔ)一樣流暢呢?這不僅僅是一個(gè)翻譯功能,而是一種新的內(nèi)容消費(fèi)模式。語(yǔ)言人工智能只是一個(gè)起點(diǎn)。一旦我們做到了這一點(diǎn),個(gè)性化和增強(qiáng)用戶體驗(yàn)的可能性幾乎是無(wú)窮無(wú)盡的。這不僅能重新定義內(nèi)容消費(fèi)方式,還能重新定義內(nèi)容的創(chuàng)建和盈利方式?!?/p>

在HeyGen平臺(tái),宣稱可以提供一鍵式視頻生成AI工具,以低成本的方式(不用昂貴的拍攝設(shè)備、演員、復(fù)雜的剪輯工具和第三方剪輯團(tuán)隊(duì))僅需通過(guò)三個(gè)步驟即可生成一條數(shù)字人視頻。

陀螺君也嘗試用HeyGen平臺(tái)生成數(shù)字人視頻。(以下HeyGen平臺(tái)截圖為免費(fèi)試用版界面)

第一步,從平臺(tái)中134個(gè)AI形象進(jìn)行選擇或上傳自己的照片形象。

圖源:HeyGen

第二步,從40多種語(yǔ)言中根據(jù)性別和視頻場(chǎng)景(包括產(chǎn)品/內(nèi)容營(yíng)銷(xiāo)、培訓(xùn)學(xué)習(xí)等)選擇不同聲線的語(yǔ)音,也可以選擇上傳自己的一段錄音進(jìn)行克隆。

圖源:HeyGen

第三步,通過(guò)內(nèi)置GPT4腳本編寫(xiě)器修改文本或翻譯內(nèi)容,最終導(dǎo)出AI數(shù)字人視頻(在幾分鐘不到的時(shí)間內(nèi)即可生成一條十幾秒的視頻)。

圖源:HeyGen

通過(guò)官方提供的素材模板和AI形象陀螺君導(dǎo)出了一條視頻,AI數(shù)字人的口型動(dòng)作都非常自然,HeyGen平臺(tái)也支持GPT4接入,一定程度上節(jié)約了構(gòu)想文案的時(shí)間。

然而GPT4腳本編寫(xiě)器的翻譯成中文容易出現(xiàn)“重復(fù)的廢話”,縮寫(xiě)后也不夠流暢,需要人工校對(duì),也正如上文小紅書(shū)的博主所述,要讓AI完全摒棄“人工”這一環(huán)節(jié),實(shí)現(xiàn)“自動(dòng)化”產(chǎn)出視頻目前不大可能,每一個(gè)環(huán)節(jié)都還需要在細(xì)節(jié)上進(jìn)行調(diào)整。

HeyGen用到的AI技術(shù)(圖源:X)

即便如此,這樣的AI數(shù)字人視頻生成工具將生活記錄、課堂記錄、演講片段等視頻轉(zhuǎn)化成各種語(yǔ)言的版本,實(shí)現(xiàn)無(wú)語(yǔ)言障礙的流暢觀看,已經(jīng)能夠滿足人們?cè)谌粘I钪械氖褂谩?/p>

二、社恐福音,AI數(shù)字人開(kāi)始成為外語(yǔ)學(xué)習(xí)“陪練”

生成式AI的流行帶火了AI數(shù)字人,其以迅雷不及掩耳之勢(shì),襲卷業(yè)務(wù)助手、直播帶貨、教育培訓(xùn)、虛擬陪伴等各個(gè)領(lǐng)域。相關(guān)閱讀:《30天攬金5千萬(wàn),AI數(shù)字人能否成為普通人的「財(cái)富密碼」?

無(wú)論是應(yīng)試、留學(xué)、去外企工作還是提高個(gè)人能力,通常情況下,倘若要學(xué)習(xí)一門(mén)外語(yǔ),日常生活中需要保證一定程度的“聽(tīng)說(shuō)讀寫(xiě)”訓(xùn)練。

網(wǎng)絡(luò)上也有不少的經(jīng)驗(yàn)總結(jié)分享,例如學(xué)習(xí)英語(yǔ):配合外語(yǔ)學(xué)習(xí)APP,多看感興趣的全英文外語(yǔ)視頻,最好不看字幕;用自己的語(yǔ)言翻譯自己看到或聽(tīng)到的內(nèi)容,也包括書(shū)籍/新聞;只有輸入沒(méi)有輸出還不行,最重要的口語(yǔ)練習(xí)不能忽視。

圖源:小紅書(shū)

然而不少人對(duì)使用外語(yǔ)進(jìn)行對(duì)話感到害怕,既難以開(kāi)口怕說(shuō)錯(cuò)話,也不敢表達(dá)出自己的意思……久而久之,使用線上聊天的社交應(yīng)用或在小紅書(shū)找口語(yǔ)“搭子”成為了新的練習(xí)口語(yǔ)方式。

如今,AI數(shù)字人也開(kāi)始在口語(yǔ)教學(xué)領(lǐng)域占得一席地位。這些AI數(shù)字人形象各異,全天候在線,打開(kāi)聊天窗口就能開(kāi)始交流?;趯?duì)話式AI和LLM大語(yǔ)言模型的能力再結(jié)合語(yǔ)音識(shí)別和生動(dòng)的虛擬圖像不僅能提供口語(yǔ)表達(dá)反饋,糾正語(yǔ)法錯(cuò)誤,不同類(lèi)型的AI數(shù)字人還能在不同領(lǐng)域帶來(lái)有趣的討論。

從左到右分別是《Call Annie》《Call Ella》和《Hi Echo》(圖源:網(wǎng)絡(luò))

其中最受關(guān)注的AI數(shù)字人之一是《Call Annie》,該應(yīng)用由Animato.Ai開(kāi)發(fā),目前僅適用于iOS 16及以上版本進(jìn)行視頻聊天(除了能直接撥號(hào)進(jìn)行虛擬電話聊天,還可在網(wǎng)頁(yè)進(jìn)行網(wǎng)絡(luò)語(yǔ)音聊天),其背后的技術(shù)模型為ChatGPT,相當(dāng)于將ChatGPT擬人化,更像是在進(jìn)行真人視頻對(duì)話。

另外兩款A(yù)I數(shù)字人應(yīng)用《Call Ella》和《Hi Echo》均是國(guó)內(nèi)“類(lèi)《Call Annie》”的AI智能外教程序?!禖all Ella》由K12英語(yǔ)智能教育服務(wù)品牌“去上學(xué)”提供,而《Hi Echo》則由網(wǎng)易有道推出,搭載其教育大模型“子曰”。兩款A(yù)I數(shù)字人應(yīng)用同樣擁有實(shí)時(shí)互動(dòng)、語(yǔ)法糾錯(cuò)、評(píng)分和話題切換等功能。

體驗(yàn)下來(lái),要實(shí)現(xiàn)正常的交流并不困難,如果要解鎖定制化服務(wù)則需要付費(fèi),只是還做不到能像《Call Annie》那樣侃侃而談的程度,面部表情和語(yǔ)音口型的變化速度稍慢一些,比起《Call Annie》,在英語(yǔ)學(xué)習(xí)方面,《Call Ella》和《Hi Echo》的定位更加清晰。

這種形式的教學(xué)方式也可以更好地模擬真實(shí)的教學(xué)過(guò)程,感覺(jué)像是和真實(shí)的老師進(jìn)行交流,如此一來(lái),口語(yǔ)練習(xí)的對(duì)話環(huán)境問(wèn)題能夠得到解決,學(xué)生也不會(huì)再有太多顧慮。

三、改變教育模式,AI數(shù)字人+大模型再上新臺(tái)階

AI技術(shù)的普及也在改變傳統(tǒng)的教育模式,而AI大模型正在成為教育類(lèi)智能終端以及軟件應(yīng)用的一項(xiàng)重要標(biāo)配。

IDC預(yù)計(jì),到2027年中國(guó)教育學(xué)習(xí)市場(chǎng)將超1500億美元,AI成為重要競(jìng)爭(zhēng)力。

圖源:IDC

此前AI功能僅作為教育軟硬件的亮點(diǎn)輔助功能,為學(xué)生提供AI拍照搜題、AI翻譯以及AI作業(yè)批改等支持,而AI大模型與教育有著高度適配的能力,具有了多語(yǔ)言理解、文本生成、智能問(wèn)答、等功能后,此前的AI能力不僅得到提升,還讓教學(xué)模式更加生動(dòng)和智能化。

今年5月以來(lái),多家公司公布了教育領(lǐng)域的AI大模型及教育產(chǎn)品,包括上文提到的網(wǎng)易有道AI外教,科大訊飛在今年5月推出了星火認(rèn)知大模型+AI學(xué)習(xí)機(jī),作業(yè)幫于9月發(fā)布自研銀河大模型,將應(yīng)用到旗下APP在內(nèi)的多項(xiàng)業(yè)務(wù)場(chǎng)景。

10月,讀書(shū)郎也發(fā)布了讀書(shū)郎教育大模型及其AI學(xué)習(xí)機(jī),另一邊,2023百度世界大會(huì)上,百度發(fā)布了基于文心一言4.0技術(shù)的小度青禾學(xué)習(xí)一體機(jī)。

在不到半年的時(shí)間內(nèi),搭載AI大模型的學(xué)習(xí)機(jī)教育產(chǎn)品就已經(jīng)十分“內(nèi)卷”。而AI數(shù)字人,又能對(duì)未來(lái)的教育帶來(lái)怎樣的影響?

圖源:央視網(wǎng)

10月31日,2023杭州云棲大會(huì)在杭州市西湖區(qū)云棲小鎮(zhèn)開(kāi)幕。據(jù)悉現(xiàn)場(chǎng)展示了多項(xiàng)AI大模型領(lǐng)域研究成果和行業(yè)模型應(yīng)用。無(wú)論是阿里通義實(shí)驗(yàn)室的大語(yǔ)言模型“通義千問(wèn)”,杭州亞運(yùn)會(huì)開(kāi)幕式上出現(xiàn)的“數(shù)字火炬手”,還是展會(huì)現(xiàn)場(chǎng)能夠與觀眾吟詩(shī)作對(duì)的“少年李白”數(shù)字人,都進(jìn)一步證明了以AI大模型為支撐的AI數(shù)字人,正在改變知識(shí)文化的交流方式。

就像學(xué)音樂(lè),有條件的最好跟從名師,但名師也十分稀缺,在同時(shí)面對(duì)多數(shù)學(xué)生的情況下,無(wú)法做到一對(duì)一教學(xué),而AI大模型的加持降低了優(yōu)秀教學(xué)資源的使用門(mén)檻,讓普通學(xué)生也能得到進(jìn)一步的練習(xí)。

但現(xiàn)階段的AI大模型受限于訓(xùn)練數(shù)據(jù)的量級(jí)和一些錯(cuò)誤性信息的影響,可能仍會(huì)輸出不準(zhǔn)確的回答,而教育對(duì)內(nèi)容信息有著非常嚴(yán)謹(jǐn)且科學(xué)的高要求,這對(duì)所有的AI大模型來(lái)說(shuō),都是巨大的考驗(yàn)。帶有AI大模型的教育產(chǎn)品能否讓家長(zhǎng)接受,讓學(xué)生用得好,還需要市場(chǎng)的進(jìn)一步驗(yàn)證。

作為一項(xiàng)新興的技術(shù),AI的潛力得以放大,搭配日益成熟的數(shù)字人技術(shù),在未來(lái)或能帶起新的一輪教育行業(yè)的變革。

作者:豌豆

來(lái)源公眾號(hào):VR陀螺(ID:vrtuoluo),XR行業(yè)垂直媒體,關(guān)注VR/AR的頭部產(chǎn)業(yè)服務(wù)平臺(tái)。

本文由人人都是產(chǎn)品經(jīng)理合作媒體 @VR陀螺 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自 Unsplash,基于 CC0 協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!