聲網(wǎng)閉門(mén)研討會(huì) | 探討 AIGC 行業(yè)應(yīng)用與創(chuàng)新場(chǎng)景方向

0 評(píng)論 7202 瀏覽 6 收藏 10 分鐘
🔗 产品经理的不可取代的价值是能够准确发现和满足用户需求,把需求转化为产品,并协调资源推动产品落地,创造商业价值。

AI 技術(shù)的蓬勃發(fā)展,為各行各業(yè)的內(nèi)容生產(chǎn)方式揭開(kāi)了新的篇章,不管是文本領(lǐng)域還是音視頻領(lǐng)域,AIGC 的加入,無(wú)疑為這些領(lǐng)域開(kāi)拓了更具創(chuàng)意、更具可能性的探索空間。

AI 技術(shù)熱潮的到來(lái)既帶來(lái)了機(jī)遇,也為業(yè)內(nèi)人士帶來(lái)了更多挑戰(zhàn)。在這樣的背景下,9月9日~10日,「人人都是產(chǎn)品經(jīng)理」聯(lián)合「騰訊大講堂」于北京舉辦了產(chǎn)品經(jīng)理大會(huì),聚焦于“AI、數(shù)字化轉(zhuǎn)型、業(yè)務(wù)增長(zhǎng)”,共同探討 AIGC 的商業(yè)化可能與落地實(shí)踐。

其中在9日晚上,「人人都是產(chǎn)品經(jīng)理」還聯(lián)合「聲網(wǎng)」聯(lián)合舉辦了一場(chǎng)閉門(mén)研討會(huì),聲網(wǎng) AIGC 產(chǎn)品負(fù)責(zé)人杜浦帶來(lái)了“AIGC 加持下,APP 體驗(yàn)場(chǎng)景創(chuàng)新哪些玩法值得期待”的主題演講,并分享了聲網(wǎng)在實(shí)時(shí)互動(dòng)+AIGC 探索上的最新成果。

現(xiàn)場(chǎng)回顧

AI 技術(shù)促進(jìn)了各行業(yè)內(nèi)容生產(chǎn)方式的革新,比如文字生成、代碼輔助開(kāi)發(fā)、圖片繪制、視頻處理等。在閉門(mén)會(huì)上,聲網(wǎng)分享嘉賓杜浦主要圍繞 AIGC 與音視頻的結(jié)合應(yīng)用進(jìn)行探討。

AIGC 的音視頻應(yīng)用場(chǎng)景有許多,比如數(shù)字人虛擬主播、AI 虛擬戀人等。而這個(gè)過(guò)程里,產(chǎn)品體驗(yàn)的需求 GAP 亟待滿足:

  1. 文本互動(dòng)效果差:不擅長(zhǎng)語(yǔ)?處理,只能實(shí)現(xiàn)?本互動(dòng),?法提供實(shí)時(shí)語(yǔ)?、視頻互動(dòng);AI 交互的響應(yīng)延遲較?,?戶體驗(yàn)差;
  2. 場(chǎng)景開(kāi)發(fā)上線難:缺少 AIGC 所需的開(kāi)發(fā)經(jīng)驗(yàn)和能?儲(chǔ)備,期望能夠接?整體解決?案;?暇進(jìn)?場(chǎng)景調(diào)研和玩法設(shè)計(jì),應(yīng)?可玩性不?,需要快速上線參考;
  3. 語(yǔ)音合成效果差:?戶的語(yǔ)?識(shí)別(STT)不夠準(zhǔn)確,AI 語(yǔ)?合成效果(TTS)過(guò)于機(jī)械不夠真實(shí),?戶體驗(yàn)差;
  4. AI 模型訓(xùn)練難:應(yīng)?設(shè)計(jì)的場(chǎng)景對(duì) AI 模型的prompt 調(diào)優(yōu)訓(xùn)練要求較?,整體場(chǎng)景流暢運(yùn)?的實(shí)現(xiàn)難度較?。

面對(duì)這些問(wèn)題,聲網(wǎng)提出了?AIGC 一站式音視頻解決方案,這一方案擁有三大核心優(yōu)勢(shì):

音視頻互動(dòng)更具沉浸感:相比傳統(tǒng)的通過(guò) IM 文字聊天與 AI 角色實(shí)現(xiàn)交互的方案,聲網(wǎng)提供的實(shí)時(shí)音視頻 + 實(shí)時(shí)消息 + 虛擬形象方案能夠帶來(lái)更真實(shí)自然的互動(dòng)體驗(yàn),更好地表達(dá)情感和傳達(dá)用戶的個(gè)性化意圖。同時(shí),實(shí)時(shí)音視頻互動(dòng)相比輸入文字,操作更加便捷,且能夠與其它多模態(tài)互動(dòng)方式結(jié)合,進(jìn)一步提升用戶體驗(yàn)。

響應(yīng)延時(shí)低至1.9秒內(nèi):聲網(wǎng)作為實(shí)時(shí)互動(dòng)云服務(wù)的開(kāi)創(chuàng)者,在音視頻領(lǐng)域積累了深厚的技術(shù)優(yōu)勢(shì),針對(duì)目前市面上大多數(shù) AI 生成式對(duì)話響應(yīng)慢的問(wèn)題,聲網(wǎng)的研發(fā)團(tuán)隊(duì)對(duì) AIGC 場(chǎng)景下音視頻互動(dòng)的延時(shí)做了很多技術(shù)優(yōu)化,可以將對(duì)話響應(yīng)延時(shí)控制在 1.9 秒內(nèi),也就意味著當(dāng)用戶對(duì) AI 角色語(yǔ)音提問(wèn)結(jié)束后,到AI 開(kāi)始說(shuō)話的時(shí)間間隔,聲網(wǎng)可以做到 1.9 秒以內(nèi),相比市場(chǎng)上絕大部分 AI 互動(dòng)延遲在 6-7s 的方案要低很多。

易開(kāi)發(fā),3h 快速上線場(chǎng)景:在場(chǎng)景開(kāi)發(fā)層面,有些企業(yè)缺少 AIGC 所需的開(kāi)發(fā)經(jīng)驗(yàn)和能力儲(chǔ)備,期望能夠接入整體解決方案,對(duì)此聲網(wǎng)提供封裝完整的 SDK,包含實(shí)時(shí)音視頻、實(shí)時(shí)消息、語(yǔ)音轉(zhuǎn)文字(STT)/文字轉(zhuǎn)語(yǔ)音(TTS)、語(yǔ)音驅(qū)動(dòng)虛擬人嘴型等多種能力,并支持 API 快速調(diào)用,提供開(kāi)箱即用的場(chǎng)景化 Demo,最快 3h即可實(shí)現(xiàn)方案快速驗(yàn)證。尤其對(duì)于想快速驗(yàn)證新場(chǎng)景的企業(yè)與開(kāi)發(fā)者而言,可以節(jié)省很多開(kāi)發(fā)時(shí)間。

再進(jìn)一步拆解,聲網(wǎng) AIGC 解決方案的一站式產(chǎn)品能力還包括這些能力:

模型能力:大語(yǔ)言模型是整個(gè) AIGC 解決方案最核心的部分,在大模型能力方面,聲網(wǎng)也跟很多熱門(mén)的國(guó)內(nèi)外大模型進(jìn)行了合作,根據(jù)業(yè)務(wù)場(chǎng)景集成測(cè)試了多個(gè)大模型的能力,以及支持開(kāi)源大模型的私有化部署和模型 Fine-tune,支持企業(yè)根據(jù)自身需求進(jìn)行靈活切換。

聲網(wǎng)會(huì)根據(jù)客戶的場(chǎng)景選擇合適的大模型,根據(jù)不同的場(chǎng)景做特定的模型數(shù)據(jù)庫(kù)和 Prompt,同時(shí)結(jié)合聲網(wǎng) RTC 的低延時(shí)特性,讓用戶交互延遲達(dá)到最優(yōu),模型輸出更符合真實(shí)場(chǎng)景。此外,聲網(wǎng)在開(kāi)源大模型層面也有在嘗試做私有化部署,以滿足部分企業(yè)對(duì)數(shù)據(jù)安全及網(wǎng)絡(luò)的要求。

語(yǔ)音能力:聲網(wǎng)憑借在音頻處理領(lǐng)域的經(jīng)驗(yàn),對(duì)語(yǔ)言轉(zhuǎn)文字(STT)+文字轉(zhuǎn)語(yǔ)音(TTS) 模型精細(xì)化調(diào)優(yōu),實(shí)現(xiàn)人聲分離,斷句優(yōu)化,讓整個(gè)語(yǔ)言體驗(yàn)更加流暢。此外,聲網(wǎng)還支持AI 實(shí)時(shí)變聲、定制化聲音克隆,讓聲音聽(tīng)起來(lái)更具真實(shí)感。例如定制化聲音克隆可以復(fù)刻現(xiàn)實(shí)中學(xué)生老師的聲音,學(xué)生在下課后可以更加真實(shí)地與老師的虛擬形象進(jìn)行語(yǔ)音互動(dòng)。

場(chǎng)景人設(shè)定制:聲網(wǎng)在1V1語(yǔ)音聊天等場(chǎng)景還對(duì) AI 角色進(jìn)行了人設(shè)定制,通過(guò) Prompt 的方式設(shè)置 AI 角色的名字、職業(yè)、性格等豐富的人設(shè)屬性并支持定制形象與聲音。在場(chǎng)景玩法層面,聲網(wǎng)也嘗試了多人語(yǔ)音場(chǎng)景的驗(yàn)證,例如在誰(shuí)是臥底、狼人殺等多人游戲的場(chǎng)景中,AI 可以作為一個(gè)玩家參與到游戲中,真正的與用戶一起玩游戲。

交互體驗(yàn)升級(jí):圍繞語(yǔ)音大模型的交互體驗(yàn),聲網(wǎng)也做了一些嘗試,例如長(zhǎng)期對(duì)話記憶,在一些對(duì)話場(chǎng)景中,用戶在進(jìn)行多輪文字互動(dòng)后,有可能大模型記不住用戶之前說(shuō)的內(nèi)容,影響對(duì)話體驗(yàn)。對(duì)此,聲網(wǎng)通過(guò)實(shí)現(xiàn)多輪對(duì)話記憶,可以更好的應(yīng)用在 AI 情感陪聊、智能辦公助手等場(chǎng)景。對(duì)于需要 AI 精準(zhǔn)回答特定行業(yè)知識(shí)、企業(yè)專業(yè)知識(shí)、多維度知識(shí)的客戶,聲網(wǎng) AIGC 方案支持公域、私域 Vector DB 接入的能力,可以解決各種類(lèi)型的數(shù)據(jù)分析和相關(guān)任務(wù),特別是那些涉及到高維向量數(shù)據(jù)的應(yīng)用場(chǎng)景。比如近似搜索、推薦系統(tǒng)、圖像識(shí)別、語(yǔ)音識(shí)別、時(shí)許分析、社交網(wǎng)絡(luò)分析、圖像/視頻和文本的關(guān)聯(lián)等。

在杜浦的分享結(jié)束后,參會(huì)者根據(jù)分享內(nèi)容和自身的業(yè)務(wù)背景進(jìn)行互動(dòng)問(wèn)答,并隨后就“AIGC 行業(yè)應(yīng)用分享與創(chuàng)新場(chǎng)景方向探討”這一話題開(kāi)啟了分組研討與小組間的內(nèi)容分享。

此外,部分與會(huì)者還在現(xiàn)場(chǎng)體驗(yàn)了聲網(wǎng) AIGC 一站式解決方案的 demo 樣本,加深了對(duì) AIGC 場(chǎng)景應(yīng)用的理解。

結(jié)語(yǔ)

AI 技術(shù)的蓬勃發(fā)展,為各行各業(yè)的內(nèi)容生產(chǎn)方式揭開(kāi)了新的篇章,不管是文本領(lǐng)域還是音視頻領(lǐng)域,AIGC 的加入,無(wú)疑為這些領(lǐng)域開(kāi)拓了更具創(chuàng)意、更具可能性的探索空間。

所以,如果你想了解 AIGC 的創(chuàng)新場(chǎng)景方向、了解 AIGC 可以如何與音視頻等領(lǐng)域結(jié)合應(yīng)用,或者想咨詢聲網(wǎng) AIGC 一站式音視頻解決方案,用 AI 技術(shù)碰撞出新的業(yè)務(wù)火花,歡迎前往「聲網(wǎng)」公眾號(hào)留言咨詢。

無(wú)論是技術(shù)支持、落地應(yīng)用還是整合方案,聲網(wǎng)都能為您提供全方位的解答。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!
专题
15664人已学习12篇文章
本专题的文章分享了如何从0-1搭建A/B Test。
专题
46028人已学习20篇文章
这些APP设计的细节和规范你都掌握了吗?
专题
19653人已学习13篇文章
本专题的文章分享了产品经理面试题和解答思路。
专题
16557人已学习16篇文章
对于很多软件工程师来说,工作内容都与界面设计有很大的关联。本专题的文章分享了界面设计方法。
专题
14601人已学习14篇文章
用户生命周期是每个产品经理都必须要注意的一个点,它能够衡量用户对产品产生的价值,也是运营手段的最终衡量指标。本专题的文章分享了如何做好用户生命周期管理。
专题
14913人已学习12篇文章
自传播是基于一个事件、一个产品或者营销活动自身的吸引力,激发人们自愿转发分享。本专题的文章分享了如何让产品具有自传播性。