深挖一下,微信是怎么學(xué)會“說人話”的?

2 評論 1799 瀏覽 8 收藏 8 分鐘

最近,微信推出的真人朗讀功能,讓我們不禁好奇,這項(xiàng)功能是如何讓機(jī)器學(xué)會“說人話”的?本文將深入探討微信真人朗讀功能背后的技術(shù)奧秘,揭示它是如何通過AI的力量,將冰冷的文字轉(zhuǎn)化為溫暖的聲音。

千呼萬喚,真人朗讀功能終于灰度到了我!

讓我驚訝的是,有朋友居然以為是我自己錄了音。佩服微信的技術(shù)能力的同時(shí),也讓我好奇,這項(xiàng)功能背后究竟藏著什么奧秘?

01 從機(jī)器人到真人聲:技術(shù)進(jìn)化之路

微信公眾號的朗讀功能并不新鮮,早些年就上線了語音朗讀,但效果實(shí)在一般。聽起來像是機(jī)器人在念稿子,毫無感情。

于是,這個(gè)功能并沒有吸引太多用戶,點(diǎn)擊量寥寥無幾。

反觀另一種場景,比如喜馬拉雅這樣的音頻平臺,為什么它的朗讀內(nèi)容卻能打動(dòng)人?

答案很簡單:它們使用真人朗讀。

為了讓用戶有更好的聆聽體驗(yàn),這些平臺鼓勵(lì)主播或講書人用專業(yè)設(shè)備錄音,雖然成本較高,但效果確實(shí)好。

不過,這種方法并不適合公眾號。公眾號的核心是文字內(nèi)容,音頻只是輔助,要求每位作者錄音顯然是不現(xiàn)實(shí)的。

于是,技術(shù)解決方案的接力棒交到了AI手中。

從2022年底大模型技術(shù)的爆發(fā),到現(xiàn)在AI技術(shù)在文生文、文生音頻等領(lǐng)域的成熟,公眾號真人朗讀功能終于有了實(shí)現(xiàn)的可能。效果不僅越來越逼真,還能根據(jù)文字生成匹配的語氣和感情。正是這些技術(shù)突破,才讓微信這個(gè)功能實(shí)現(xiàn)了質(zhì)的飛躍。

02 探索“說人話”背后的技術(shù)小秘密

我們先來看看說人話的過程,一共操作只需要三步:先選擇錄制例句 ?? 音色復(fù)刻 ?? 音色試聽并保存。

用技術(shù)的視角一句話總結(jié):通過預(yù)訓(xùn)練語音模型,結(jié)合作者音色訓(xùn)練,生成專屬語音模型。

具體實(shí)現(xiàn)可以分為以下幾步:

  1. 文本準(zhǔn)備與預(yù)訓(xùn)練模型:開始時(shí),需要用海量的語音數(shù)據(jù)和對應(yīng)的文本進(jìn)行預(yù)訓(xùn)練。這些語音數(shù)據(jù)覆蓋了不同的語氣、語速和音色,讓模型能夠掌握“如何說話”的基礎(chǔ)能力。
  2. 作者音色采集:作者需要朗讀幾段預(yù)設(shè)文案。這些文案是設(shè)計(jì)好的訓(xùn)練數(shù)據(jù),幫助AI捕捉作者的獨(dú)特音色和語調(diào)特征。注意,這個(gè)過程中作者最好帶入情感朗讀,生成的聲音才會更像自己。
  3. 音頻生成:基于前兩步的數(shù)據(jù),系統(tǒng)會用“音色遷移”技術(shù),將作者的聲音特征融入到預(yù)訓(xùn)練模型中。最終生成的音頻不僅保留了原有模型的流暢度和自然感,還帶上了作者的個(gè)人特色。
  4. 試聽與調(diào)整:用戶可以試聽生成的音頻。如果覺得某些地方不夠滿意,可以重新錄入部分文案,優(yōu)化生成效果。

就是這樣,復(fù)雜的技術(shù)被簡化成用戶無感的操作,只需幾分鐘,作者的聲音就可以被完美復(fù)刻。

03 如何借鑒微信的產(chǎn)品設(shè)計(jì)?

我在這篇文章之前也看到了很多作者的觀點(diǎn),我總結(jié)就是兩點(diǎn):第一點(diǎn)是極簡的產(chǎn)品設(shè)計(jì),第二點(diǎn)是新技術(shù)解決老問題。

第一,極簡交互的威力

微信的設(shè)計(jì)哲學(xué)向來強(qiáng)調(diào)極簡。朗讀功能的核心交互流程非常清晰:選擇文案、錄入音色、生成試聽。

對于用戶來說,復(fù)雜的技術(shù)細(xì)節(jié)被隱藏在背后,只留下易懂、易用的體驗(yàn)。這種“去復(fù)雜化”的設(shè)計(jì)理念,值得每一位產(chǎn)品經(jīng)理學(xué)習(xí)。

遷移思考: 比如在政務(wù)智能客服中,利用大模型技術(shù)解決市民咨詢的復(fù)雜性問題:當(dāng)市民提問政策時(shí),AI可以通過自然語言處理,將模糊問題具體化,生成語音解答,甚至用地方方言增強(qiáng)親和力,避免傳統(tǒng)客服中的機(jī)械感。同時(shí),在熱線高峰時(shí)段,AI還能通過情緒識別,優(yōu)先處理緊急或情緒激動(dòng)的市民訴求,讓市民感受到更加高效和人性化的服務(wù)體驗(yàn)。

第二,新技術(shù)解決老問題

這個(gè)功能的推出并不是炫技,而是為了解決一個(gè)具體的用戶痛點(diǎn)——提升文章的聆聽體驗(yàn)。很多產(chǎn)品經(jīng)理在應(yīng)用技術(shù)時(shí)容易陷入“堆功能”的誤區(qū),而微信卻用技術(shù)精細(xì)打磨產(chǎn)品,服務(wù)明確的需求場景。

遷移思考:在政務(wù)服務(wù)領(lǐng)域,類似的新技術(shù)同樣可以解決老問題。例如,市民咨詢政策時(shí),AI技術(shù)能從市民的復(fù)雜表達(dá)中提取關(guān)鍵信息,自動(dòng)匹配精準(zhǔn)的政策條款。

最后的話

雖然很多人覺得公眾號已經(jīng)日薄西山,但真人朗讀功能的加入可能改變這一趨勢。它不僅提升了用戶體驗(yàn),還為公眾號找到了一條新增長曲線。

未來,我們或許會看到更多結(jié)合AI技術(shù)的功能,比如視頻生成、個(gè)性化推薦,甚至文章內(nèi)容的AI自動(dòng)延展。公眾號,正在從“人寫”走向“人講”,讓內(nèi)容變得更加生動(dòng)有趣。

從技術(shù)角度來看,它從來不只是冷冰冰的代碼,它是溫暖的橋梁,連接著創(chuàng)作者與讀者。正如張小龍?jiān)f過,“好的產(chǎn)品應(yīng)該像水一樣融入生活”,未來,我相信我們能在微信上不斷的體驗(yàn)到更多這樣的功能,不斷刷新“啊哈”體驗(yàn)的上限。

希望帶給你一些啟發(fā),加油。

作者:柳星聊產(chǎn)品,公眾號:柳星聊產(chǎn)品

本文由 @柳星聊產(chǎn)品 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自 Unsplash,基于 CC0 協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 不懂就問,為什么最近總有人反復(fù)強(qiáng)調(diào)“微信是極簡的”。。。

    來自上海 回復(fù)
  2. 這樣的話,有個(gè)問題需要考慮,是否人工費(fèi)用會高呢

    來自中國 回復(fù)