6000字長(zhǎng)文丨微信讀書(shū)中4個(gè)結(jié)合AI能力提升體驗(yàn)的案例分析

杜昭
0 評(píng)論 3668 瀏覽 42 收藏 25 分鐘
🔗 B端产品需要更多地依赖销售团队和渠道合作来推广产品,而C端产品需要更多地利用网络营销和口碑传播来推广产品..

前幾天微信讀書(shū)APP更新了,上線了AI問(wèn)書(shū)的相關(guān)功能。本文作者從四個(gè)方面,和大家分享微信讀書(shū)與AI能力融合之后,在閱讀這個(gè)細(xì)分場(chǎng)景下是如何提升用戶體驗(yàn)的。

AI很火,大模型很火,但是國(guó)內(nèi)沒(méi)有任何一家AI公司賺錢(qián),文心一言從上線到現(xiàn)在據(jù)說(shuō)營(yíng)收不超過(guò)50萬(wàn)美元。

各家都在想著怎么使用AI能力造出新產(chǎn)品,但是在移動(dòng)互聯(lián)網(wǎng)時(shí)代用戶的需求已經(jīng)被挖掘的差不多了,現(xiàn)在鮮少能有令用戶wow一聲的產(chǎn)品出現(xiàn)。

作者覺(jué)得現(xiàn)在更應(yīng)該做的是:使用AI這種新能力。以體驗(yàn)更好的方式解決用戶的舊需求。

那么在不同的細(xì)分場(chǎng)景中,AI能力是如何對(duì)用戶的舊需求進(jìn)行體驗(yàn)重造的呢?下文就以微信讀書(shū)為例,來(lái)進(jìn)行詳細(xì)的分析。

微信讀書(shū)APP前幾天上線了AI問(wèn)書(shū)相關(guān)的功能,作者使用下來(lái)感覺(jué)很不錯(cuò)。其實(shí)微信讀書(shū)之前已經(jīng)上線了不少AI相關(guān)的能力,有AI大綱、AI聽(tīng)書(shū)、還有AI翻譯。

下面我們就一起從這四個(gè)具體的功能來(lái)看一下,微信讀書(shū)與AI能力融合之后,在閱讀這個(gè)細(xì)分場(chǎng)景下是如何提升用戶體驗(yàn)的?

一、AI問(wèn)書(shū)

首先來(lái)看最新上線的【AI問(wèn)書(shū)】

AI問(wèn)書(shū)其實(shí)就是一個(gè)搜索功能。用戶在閱讀的過(guò)程中,如果遇到了不懂的概念,就可以將對(duì)應(yīng)的文字選中,然后點(diǎn)擊AI搜索,就可以出現(xiàn)對(duì)這個(gè)詞的搜索結(jié)果。如下圖:

在我讀ChatGPT技術(shù)原理的一本書(shū)時(shí),遇到不懂的鏈?zhǔn)椒▌t概念就用到了AI搜索功能,可以看到在第二頁(yè)給出了菲茨詳細(xì)的解釋,而且生成速度在10秒之內(nèi)。

除此之外,還會(huì)根據(jù)用戶的問(wèn)題判斷用戶可能想問(wèn)的其他問(wèn)題,幫用戶列出來(lái),這一點(diǎn)也十分重要,因?yàn)楫?dāng)面對(duì)一個(gè)新領(lǐng)域的知識(shí)時(shí),用戶非常有可能處于不知道自己需要學(xué)習(xí)什么的狀態(tài)。

如果只是這樣的話,那這也只是一個(gè)搜索功能,微信讀書(shū)的體驗(yàn)優(yōu)秀之處還可以分為兩個(gè)方面來(lái)講:

第一方面是:搜索的起點(diǎn)和終點(diǎn)都發(fā)生在同一款產(chǎn)品的同一個(gè)頁(yè)面之中。

閱讀本身就是一種非常需要沉浸的行為,如果像以前那樣,我們遇到了一個(gè)不懂的新概念,然后跑到手機(jī)瀏覽器上去搜索,那會(huì)產(chǎn)生兩個(gè)問(wèn)題,第一個(gè)問(wèn)題是發(fā)生了不同手機(jī)應(yīng)用之間的切換,這會(huì)導(dǎo)致用戶沉浸式閱讀的行為被中斷。

另一個(gè)問(wèn)題是在瀏覽器中進(jìn)行搜索時(shí)非常有可能在不同網(wǎng)站之間進(jìn)行切換來(lái)對(duì)比這個(gè)概念的含義,才能夠比較準(zhǔn)確的判斷出在自己的閱讀場(chǎng)景中什么樣的解釋是符合語(yǔ)境的。

前者對(duì)于用戶使用時(shí)長(zhǎng)顯然存在不利的影響,后者也提升了用戶離開(kāi)微信讀書(shū)這款產(chǎn)品的時(shí)長(zhǎng),并且并且整個(gè)過(guò)程體驗(yàn)也很差。

而在微信讀書(shū)上線了AI搜索的能力之后,我們可以直接在某本書(shū)某段文字上進(jìn)行選擇,然后結(jié)果就會(huì)直接在當(dāng)前頁(yè)面用一個(gè)浮窗的形式顯示,并可以結(jié)合上下文來(lái)判斷用戶此時(shí)選擇的這個(gè)詞語(yǔ)的最佳用含義是什么。這樣就可以給出用戶一個(gè)最需要的,最合適的結(jié)果。

有些詞語(yǔ)可能沒(méi)有正確之分,但是一定有合不合適語(yǔ)境的區(qū)別。舉個(gè)例子,如果我在搜索引擎中搜索的是一個(gè)【蘋(píng)果】的詞語(yǔ),那么結(jié)果到底應(yīng)該顯示出來(lái)紅富士蘋(píng)果還是蘋(píng)果手機(jī)?

這就是沒(méi)有結(jié)合上下文進(jìn)行搜索時(shí),搜索引擎無(wú)法做出最正確判斷的例子。作者本人就遇到過(guò)多次想在拼多多買(mǎi)點(diǎn)水果,結(jié)果搜索結(jié)果頁(yè)列出來(lái)了一堆手機(jī)的情況。

第二方面是搜索結(jié)果的準(zhǔn)確度、易理解程度的問(wèn)題。

我們都知道,在通用大模型產(chǎn)品剛剛上線不久的時(shí)候,我們與ChatGPT這類產(chǎn)品對(duì)話時(shí),經(jīng)常會(huì)遇到胡說(shuō)八道的情況。

雖然現(xiàn)在已經(jīng)好很多了,但是很多用戶包括作者自己,有時(shí)候依然會(huì)懷疑AI給出的答案是否是可信的,所以現(xiàn)在很多AI搜索產(chǎn)品在給出答案的時(shí)候都會(huì)將答案的來(lái)源列出來(lái)來(lái)增加回答的可信度(另一方面意義是為了方便用戶去原文鏈接中查找更多信息)

剛剛作者說(shuō)了準(zhǔn)確度,易理解程度這兩個(gè)維度的體驗(yàn)。首先來(lái)說(shuō)準(zhǔn)確度。由于微信讀書(shū)的搜索結(jié)果基本是從整個(gè)產(chǎn)品中不可計(jì)數(shù)的書(shū)籍中進(jìn)行查找的,所以對(duì)于概念的準(zhǔn)確的基本是有保障的。

雖然作者也是做自媒體,但是不得不承認(rèn),很多情況下已經(jīng)出版的書(shū)籍中對(duì)一些概念名詞的解釋是更為準(zhǔn)確、校對(duì)更加嚴(yán)格的。

再來(lái)說(shuō)豐富度(或者叫結(jié)構(gòu)化),從上面的截圖中,大家也可以看到,當(dāng)我搜索鏈?zhǔn)椒▌t這個(gè)詞語(yǔ)的時(shí)候,整個(gè)搜索結(jié)果給我列出了它的定義、應(yīng)用、理解等三個(gè)部分的內(nèi)容。正是由于從多方面,多角度給出的信息,幫助了用戶更輕松的去理解搜索詞的含義,有的時(shí)候他甚至還會(huì)給你舉個(gè)例子來(lái)幫助用戶理解。

除了在書(shū)籍內(nèi)容頁(yè)面可以進(jìn)行AI搜索之外,在書(shū)籍商城的搜索框中同樣可以進(jìn)行AI搜索。我們假設(shè)一個(gè)場(chǎng)景:我想看余華最新出版的作品,但是我又忘了這本書(shū)叫什么名字,于是我在搜索框中輸入了文字【余華最新出版的書(shū)籍】。

搜索結(jié)果雖然給出了我很準(zhǔn)確的回答,,但是卻并沒(méi)有直接給我打開(kāi)這本書(shū)的入口,而我們直接搜索第七天這個(gè)書(shū)名時(shí),其實(shí)能夠發(fā)現(xiàn)這本書(shū)已經(jīng)在微信讀書(shū)app中上架了。

所以我們能夠推測(cè),在這里進(jìn)行搜索時(shí),其實(shí)還是根據(jù)書(shū)籍內(nèi)容進(jìn)行的,

在前面的分析中,我們提到了微信讀書(shū)結(jié)合具體的產(chǎn)品使用場(chǎng)景,為AI能力做了很細(xì)致的融合。

但是這里就沒(méi)有考慮使用場(chǎng)景,或者說(shuō)沒(méi)有對(duì)用戶的意圖做出進(jìn)一步的判斷。(意圖識(shí)別將是很多AI產(chǎn)品的核心能力,這方面的分析將會(huì)在下一篇長(zhǎng)文中進(jìn)行詳細(xì)解釋)

作者覺(jué)得在一個(gè)閱讀產(chǎn)品中輸入某某的作品,那這個(gè)時(shí)候用戶的意圖應(yīng)該是非常明確的,就是想找到這本書(shū)去閱讀。這里沒(méi)有做出更便捷的設(shè)計(jì)確實(shí)有些遺憾。

不過(guò)也可以理解,畢竟這個(gè)功能叫做AI問(wèn)書(shū),而不是AI搜索。

當(dāng)然從整體上來(lái)說(shuō),AI問(wèn)書(shū)功能還是一個(gè)具體場(chǎng)景與AI能力結(jié)合之后,對(duì)用戶體驗(yàn)提升非常大的案例。

接下來(lái)我們繼續(xù)來(lái)聊聊AI大綱、AI聽(tīng)書(shū)、AI翻譯。

二、AI聽(tīng)書(shū)

聽(tīng)書(shū)功能其實(shí)是一個(gè)出現(xiàn)了非常多年的功能,那么為什么微信讀書(shū)這里一定要把這個(gè)功能叫做AI聽(tīng)書(shū)呢?

大家還記不記得剛開(kāi)始出現(xiàn)文字轉(zhuǎn)語(yǔ)音功能的時(shí)候,那些文字的發(fā)音都是什么樣的?簡(jiǎn)單來(lái)說(shuō)就是一個(gè)字是一個(gè)字的發(fā)音,沒(méi)有詞語(yǔ)的發(fā)音,語(yǔ)氣詞和兒化音的發(fā)音也都特別生硬。

可以想象一下開(kāi)心麻花的小品中,這位飾演機(jī)器人的妹子的發(fā)音。

后來(lái)隨著技術(shù)的進(jìn)步,文字轉(zhuǎn)成的語(yǔ)音慢慢變得更加流暢,更加有感情了,在這個(gè)過(guò)程中其實(shí)就是AI能力的體現(xiàn),在不同的詞語(yǔ)中,哪些詞哪些字應(yīng)該重讀,哪個(gè)字應(yīng)該快讀,哪個(gè)字應(yīng)該慢讀,以及、音色、音量等等,更加復(fù)雜的算法變得更加接近于人的聲音了。甚至停頓、笑聲也都有被比較準(zhǔn)確的模擬出來(lái)。

如果大家曾經(jīng)用過(guò)起點(diǎn)讀書(shū)這款產(chǎn)品的話,也能發(fā)現(xiàn)在聽(tīng)書(shū)時(shí)選擇【說(shuō)書(shū)先生】選項(xiàng)相對(duì)于其他選項(xiàng)明顯更加接近于人朗讀文字的感覺(jué)。

語(yǔ)音轉(zhuǎn)文字能力是AI能力非常重要的一部分,在多模態(tài)交互中,不同模態(tài)信息之間的轉(zhuǎn)換是工程師們的重要研究課題。

如果大家感興趣,可以隨便找一款比較山寨的閱讀產(chǎn)品,試一試?yán)锩娴穆?tīng)書(shū)功能的感覺(jué)和微信讀書(shū)這個(gè)AI聽(tīng)書(shū)的感覺(jué)有多大的差距。

AI能力為產(chǎn)品帶來(lái)的可能不是一個(gè)全新的用戶沒(méi)有見(jiàn)過(guò)的能力,而更多的會(huì)發(fā)生在對(duì)已有功能的體驗(yàn)升級(jí)上。可能是更舒適,可能是更高效。所以作者覺(jué)得AI與用戶體驗(yàn)之間的融合這方面的研究是非常有潛力的。

還是那句話:用新能力,為舊需求,帶來(lái)新體驗(yàn),賣(mài)更多錢(qián)

如果我們從技術(shù)角度來(lái)解讀一下AI聽(tīng)書(shū)相關(guān)能力的話,其實(shí)也有很多值得講的點(diǎn)。這個(gè)功能主要集成了自然語(yǔ)言處理(NLP)、語(yǔ)音合成(TTS,Text-to-Speech)等人工智能技術(shù)的創(chuàng)新應(yīng)用。以下是該功能的一些關(guān)鍵技術(shù)分析:

  1. 在聽(tīng)書(shū)功能啟動(dòng)時(shí),系統(tǒng)首先需要解析電子書(shū)的文本內(nèi)容。這一過(guò)程包括識(shí)別文檔結(jié)構(gòu)、章節(jié)劃分、以及文字內(nèi)容的準(zhǔn)確提取。這一步驟對(duì)于確保流暢和準(zhǔn)確的聽(tīng)書(shū)體驗(yàn)至關(guān)重要。
  2. 文本被解析后,通過(guò)語(yǔ)音合成技術(shù)將文本轉(zhuǎn)換成自然人聲。TTS技術(shù)涉及到文本分析、韻律建模、語(yǔ)音合成引擎等多個(gè)子領(lǐng)域。高質(zhì)量的TTS能夠生成接近真人的聲音,包括語(yǔ)調(diào)、停頓、重音等,以增強(qiáng)聽(tīng)書(shū)的沉浸感和理解度。微信讀書(shū)可能采用了先進(jìn)的深度學(xué)習(xí)模型,如WaveNet或Tacotron系列,這些模型能夠生成更加自然流暢的語(yǔ)音。
  3. 用戶可以根據(jù)自己的偏好調(diào)整朗讀的語(yǔ)速、音色(如果應(yīng)用提供多種聲音選項(xiàng)的話)等參數(shù)。這背后的技術(shù)支持可能包括對(duì)預(yù)訓(xùn)練的TTS模型進(jìn)行微調(diào),或者利用算法動(dòng)態(tài)調(diào)整音頻輸出參數(shù),以滿足用戶的個(gè)性化需求。
  4. 雖然主要功能是聽(tīng)書(shū),但結(jié)合“AI問(wèn)書(shū)”功能,微信讀書(shū)還可能具備一定的問(wèn)答能力,能夠在用戶有疑問(wèn)時(shí)提供即時(shí)解釋。這要求系統(tǒng)具備一定的自然語(yǔ)言理解和知識(shí)圖譜技術(shù),能精準(zhǔn)定位到用戶提出問(wèn)題的相關(guān)文本,并給出合理解答。
  5. 聽(tīng)書(shū)過(guò)程中,微信讀書(shū)還會(huì)同步用戶的閱讀進(jìn)度,支持書(shū)簽功能,使得用戶在不同設(shè)備間切換時(shí)能無(wú)縫繼續(xù)聽(tīng)書(shū)。這需要高效的云服務(wù)支持,以及良好的數(shù)據(jù)同步機(jī)制。

可以看到,在用戶視角下,一個(gè)比較簡(jiǎn)單的功能,但是其中的技術(shù)過(guò)程還是非常復(fù)雜的。所以,當(dāng)AI能力與各種應(yīng)用傳統(tǒng)的核心使用場(chǎng)景相結(jié)合時(shí),如果想提升用戶體驗(yàn)還還是需要更加系統(tǒng)性的思考。

三、AI大綱

AI大綱最重要的意義是增強(qiáng)了用戶在索引、記憶和閱讀靈活性等方面的能力。

使用AI技術(shù)對(duì)書(shū)籍內(nèi)容進(jìn)行分析和提煉,形成結(jié)構(gòu)化的大綱,讀者就能在短時(shí)間內(nèi)掌握全書(shū)的主旨和框架。

這不僅可以節(jié)省讀者的時(shí)間,還建議更好地理解和記憶內(nèi)容。用戶還可以通過(guò)AI大綱定位到自己感興趣的部分,進(jìn)行深入閱讀,或是選擇閱讀,以此來(lái)優(yōu)化個(gè)人的學(xué)習(xí)或休閑閱讀策略。

尤其在現(xiàn)在這種碎片化信息充斥著視野的環(huán)境下,用戶們閱讀長(zhǎng)文章的耐心(能力)其實(shí)已經(jīng)比較低了。而書(shū)籍恰恰是更長(zhǎng)的文章,如果沒(méi)有信息檢索能力幫助用戶找到需要閱讀的重點(diǎn),那閱讀體驗(yàn)將會(huì)很差。甚至沒(méi)閱讀完就放棄了。

在閱讀內(nèi)容詳實(shí)、信息量大的書(shū)籍時(shí),用戶往往面臨信息過(guò)載的問(wèn)題,難以快速把握全書(shū)要點(diǎn)。

AI大綱可以幫助用戶在短時(shí)間內(nèi)掌握書(shū)籍核心框架和各章節(jié)重點(diǎn),提高了閱讀效率和信息篩選能力。

對(duì)于知識(shí)型書(shū)籍,讀者通常需要深入理解并記住關(guān)鍵概念。AI大綱通過(guò)突出顯示每個(gè)部分的主要論點(diǎn)和結(jié)論,輔助讀者構(gòu)建知識(shí)體系,加深理解和記憶,避免因遺漏重要信息而影響對(duì)整體內(nèi)容的理解。

用戶在完成閱讀后,想要復(fù)習(xí)或回顧特定章節(jié)時(shí),AI大綱也提供了一個(gè)方便快捷的途徑。用戶可以直接通過(guò)大綱找到感興趣或需要復(fù)習(xí)的部分,無(wú)需再次瀏覽全文,節(jié)省了時(shí)間。

對(duì)于時(shí)間有限或偏好跳躍式閱讀的用戶,AI大綱允許他們根據(jù)個(gè)人興趣或需求選擇閱讀順序。用戶可以直接跳轉(zhuǎn)到自己最關(guān)心的章節(jié)進(jìn)行深度閱讀,增加了閱讀的靈活性和個(gè)性化。

以上是AI大綱在閱讀前、閱讀中和閱讀后的一些意義,而對(duì)于一些特殊角色例如學(xué)生、研究人員等需要大量閱讀和整理資料的群體,AI大綱功能相當(dāng)于一個(gè)自動(dòng)化的總結(jié)和筆記工具,幫助他們快速歸納書(shū)籍內(nèi)容,為撰寫(xiě)論文、報(bào)告或做研究提供了便利。

AI大綱的技術(shù)原理流程圖大致如下:

四、AI翻譯

由于這個(gè)功能的意義相對(duì)簡(jiǎn)單,所以放到最后,AI翻譯在跨語(yǔ)言閱讀難題、即時(shí)理解、專業(yè)術(shù)語(yǔ)理解等方面都能為用戶解決極大痛點(diǎn)。

在閱讀外文書(shū)籍或遇到不懂的外語(yǔ)詞匯時(shí),AI翻譯功能可以直接提供翻譯,幫助用戶克服語(yǔ)言障礙,從更多來(lái)源獲取信息。也無(wú)需切換應(yīng)用或查閱紙質(zhì)詞典,AI翻譯的即時(shí)性讓用戶在閱讀時(shí)能迅速理解難點(diǎn),保持閱讀思路的連貫性沉浸性。

同時(shí)對(duì)于專業(yè)術(shù)語(yǔ)理解:針對(duì)專業(yè)書(shū)籍或領(lǐng)域特定詞匯,AI翻譯的優(yōu)勢(shì)也比較大,要知道很多外文包括英文并非想漢語(yǔ)一樣,是有很多單字來(lái)組詞滿足一些專業(yè)術(shù)語(yǔ)和新詞語(yǔ)的需求,而是出現(xiàn)一個(gè)新的概念就需要一個(gè)新的單詞來(lái)進(jìn)行表示。

例如,“計(jì)算機(jī)”(computer)這個(gè)詞是由“計(jì)算”(to calculate)和“機(jī)”(machine)組合而成。這樣的方法使得漢語(yǔ)能夠快速生成新詞,而不需要完全創(chuàng)造新的字符。

以英文為例,一個(gè)人的博學(xué)程度幾乎可以用他掌握的單詞數(shù)量來(lái)計(jì)算,以前作者看到一篇新聞就是以埃隆·馬斯克掌握大量工程學(xué)、航天技術(shù)、人工智能和商業(yè)等領(lǐng)域的專業(yè)術(shù)語(yǔ)而體現(xiàn)其能力。

對(duì)于整個(gè)產(chǎn)品而言,便捷的語(yǔ)言轉(zhuǎn)換服務(wù),還可以極大地拓寬了不同母語(yǔ)用戶的用戶群體,這也是很重要的一點(diǎn)。

作者認(rèn)為AI技術(shù)將繼續(xù)以多種方式深刻改變用戶體驗(yàn),從個(gè)性化、交互性、效率、可達(dá)性、情境感知、到創(chuàng)造性和便捷性等多個(gè)維度全面提升。以下是一些具體的改變方式:

  1. 個(gè)性化體驗(yàn):AI通過(guò)分析用戶行為、偏好和歷史數(shù)據(jù),提供個(gè)性化推薦,如個(gè)性化內(nèi)容、產(chǎn)品、服務(wù)或廣告,使用戶體驗(yàn)更加貼合個(gè)人需求,增加用戶粘性。例如,電商平臺(tái)的個(gè)性化商品推薦,音樂(lè)和視頻流媒體的定制化播放列表。
  2. 智能交互:自然語(yǔ)言處理和語(yǔ)音識(shí)別技術(shù)讓AI能理解并響應(yīng)用戶的口頭指令,提供語(yǔ)音交互,如虛擬助手、AI客服,減少用戶操作步驟,提升便捷性和友好性。同時(shí),AI還能通過(guò)表情識(shí)別和情緒分析,提升交互的情感智能。
  3. 自動(dòng)化與效率:AI自動(dòng)化處理重復(fù)任務(wù),如信息摘要、文檔整理、數(shù)據(jù)分析,釋放用戶時(shí)間,使他們專注于更有價(jià)值的活動(dòng)。AI還加速響應(yīng)時(shí)間,如即時(shí)翻譯、搜索結(jié)果,提升效率。
  4. 情境感知:AI能根據(jù)用戶所處的情境(位置、時(shí)間、設(shè)備、歷史行為)智能調(diào)整服務(wù),如智能家居根據(jù)作息自動(dòng)調(diào)節(jié)燈光和溫度,旅行應(yīng)用根據(jù)天氣和交通狀況推薦行程。
  5. 創(chuàng)造性輔助:AI生成式技術(shù),如文本、圖像、音樂(lè)生成,為創(chuàng)作者提供靈感和輔助,加快創(chuàng)作過(guò)程,同時(shí)個(gè)性化內(nèi)容創(chuàng)作,提升用戶參與度和娛樂(lè)體驗(yàn)。
  6. 無(wú)障礙提升:AI助力實(shí)現(xiàn)無(wú)障礙設(shè)計(jì),如自動(dòng)字幕、語(yǔ)音轉(zhuǎn)文本,幫助視障、聽(tīng)障人士,使技術(shù)惠及更廣泛人群,推動(dòng)包容性設(shè)計(jì)。
  7. 教育與知識(shí)獲?。篈I個(gè)性化學(xué)習(xí)平臺(tái),通過(guò)智能適應(yīng)性學(xué)習(xí)路徑和反饋,提供定制化教育資源,使學(xué)習(xí)更有效,同時(shí)AI輔助答疑,如“AI問(wèn)書(shū)”,即時(shí)解答疑惑。
  8. 健康:AI在健康管理、心理健康支持、疾病預(yù)防和遠(yuǎn)程醫(yī)療方面發(fā)揮作用,通過(guò)監(jiān)測(cè)、預(yù)警、分析數(shù)據(jù),提供個(gè)性化建議,改善健康維護(hù)體驗(yàn)。
  9. 金融與服務(wù):AI在金融領(lǐng)域的應(yīng)用,如風(fēng)險(xiǎn)管理、欺詐檢測(cè)、智能投顧,提升安全性同時(shí)個(gè)性化金融服務(wù),簡(jiǎn)化流程,為用戶提供更快捷、安全的金融服務(wù)體驗(yàn)。

AI技術(shù)通過(guò)深度融入產(chǎn)品和服務(wù)的各個(gè)層面,不僅僅是提供定制化和即時(shí)的解決方案,還在創(chuàng)造新的交互方式,目前比較確定的就是未來(lái)的智能硬件產(chǎn)品將會(huì)以多模態(tài)交互的形式與用戶進(jìn)行交流,而不是今天的以觸屏為主。

以最新發(fā)布的ChatGPT-4o為例來(lái)講講多模態(tài)交互的意義大概如下:

如果僅僅把多模態(tài)交互能力理解成了我們可以不僅僅使用文字和GPT交流了,這么理解實(shí)在太小看多模態(tài)交互能力了。

要知道,人類通過(guò)文字表達(dá)和聲音表達(dá),即使是完全同樣的文本。所包含的信息也有很大的差別。文字只是靜態(tài)的信息,而聲音包含更多維度的信息。例如語(yǔ)音、語(yǔ)調(diào)、音量、語(yǔ)速、停頓、重音等等。

同樣是【你好】,文字只能表達(dá)1種含義,而聲音可能能表達(dá)4-6種。對(duì)于程序來(lái)說(shuō),多模態(tài)交互意味著從更多來(lái)源獲得信息(指視、聽(tīng)、文、環(huán)境等來(lái)源)。也意味著獲得更多信息(例如剛剛所說(shuō)的聲音維度的語(yǔ)音、語(yǔ)調(diào)、音量、語(yǔ)速、停頓、重音)。

這僅僅是從聲音一種模態(tài)中可以擴(kuò)展出的新信息,而多模態(tài)包括視覺(jué)、語(yǔ)音、圖像、文本、觸覺(jué)等等很多方面的信息通道。

從多來(lái)源獲得信息并獲得更多信息,GPT就可以縮短推理、判斷等過(guò)程,更快速的給與用戶回復(fù)。這就像是用戶自動(dòng)的把提問(wèn)描述的更詳細(xì)了,把自己的要求說(shuō)的更清楚了,如此一來(lái)GPT給與反饋的速度和質(zhì)量自然會(huì)有對(duì)應(yīng)的提升。(當(dāng)然同樣也有模型方面帶來(lái)的提升)

除了聲音之外,GPT-4o的多模態(tài)交互能力還包括視覺(jué)理解能力,例如能識(shí)別圖像中的人臉,分析性別、年齡、表情等信息。這同樣是我們剛剛所說(shuō)的從更多來(lái)源獲得信息以及獲得更多信息。

以上是多模態(tài)交互能力中,人向GPT輸入過(guò)程中的意義,那么對(duì)于人機(jī)交互的另一部分:GPT向人輸出的階段,同樣意義非凡。

GPT-4o可以根據(jù)需要以最合適的模態(tài)進(jìn)行回應(yīng),在之前GPT只能以文字進(jìn)行回復(fù),但之后則可以是文字、聲音、圖像。聲音模態(tài)的意義是支持更多交流場(chǎng)景以及對(duì)無(wú)障礙交互的包容。圖像的意義就不用多說(shuō)了,無(wú)論是取代了命令行的圖形化界面,還是晉升答辯時(shí)準(zhǔn)備的PPT,都能體現(xiàn)圖像相對(duì)于文字的優(yōu)勢(shì)。

這里稍微展開(kāi)了一點(diǎn)兒多模態(tài)交互的內(nèi)容。如果想要完全說(shuō)明多模態(tài)交互的整個(gè)體系可能需要幾萬(wàn)字,后面有時(shí)間再慢慢更新吧。

專欄作家

杜昭,微信公眾號(hào):AI與用戶體驗(yàn),人人都是產(chǎn)品經(jīng)理專欄作者,實(shí)戰(zhàn)派設(shè)計(jì)師,目前在某手機(jī)公司負(fù)責(zé)手機(jī)OS交互設(shè)計(jì),所負(fù)責(zé)產(chǎn)品覆蓋用戶數(shù)億,主要研究AI與人機(jī)交互設(shè)計(jì)的融合及人因?qū)W對(duì)用戶體驗(yàn)的影響。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自 Unsplash,基于 CC0 協(xié)議。

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!
专题
15727人已学习12篇文章
本专题的文章分享了如何从0-1搭建A/B Test。
专题
17665人已学习13篇文章
在精细化运营的过程中,为自己的产品搭建一套数据指标体系,对于促进产品和业务增长是至关重要的。本专题的文章分享了如何搭建数据指标体系。
专题
12270人已学习12篇文章
瑞幸咖啡和茅台的这次联名合作,无疑让联名营销这类营销方式又掀起了热度。本专题的文章分享了联名营销指南。
专题
35104人已学习22篇文章
从动效设计原则、动效工具、制作方法、标注技巧等全方位解读