精品人妻AV区,一级免费毛片

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

AI產(chǎn)品經(jīng)理需了解的技術(shù)知識(shí)：語音識(shí)別技術(shù)（2）

豬不會(huì)飛

2018-07-01

5 評(píng)論 9704 瀏覽 84 收藏

8 分鐘

本文章主要介紹了語音識(shí)別技術(shù)語的算法包括動(dòng)態(tài)時(shí)間調(diào)整、隱馬爾可夫模型、BP神經(jīng)網(wǎng)絡(luò)，目的是幫助PM了解語音技術(shù)方面的知識(shí)，有助于語音類相關(guān)產(chǎn)品的設(shè)計(jì)～

語音信號(hào)是一種短時(shí)平穩(wěn)信號(hào)，即時(shí)變的，十分復(fù)雜，同時(shí)也攜帶了很多有用信息，包括個(gè)人信息、語義等。因此特征參數(shù)提取的準(zhǔn)確率，直接影響語音識(shí)別結(jié)果的好壞。

信號(hào)的預(yù)處理就是為了保障特征參數(shù)提取準(zhǔn)確性的前期工作，這部分的介紹見上一篇文章?：AI產(chǎn)品經(jīng)理需了解的技術(shù)知識(shí)：語音識(shí)別技術(shù)（1）。

語音識(shí)別算法

語音識(shí)別系統(tǒng)的本質(zhì)是模式識(shí)別系統(tǒng)，而語音識(shí)別的過程就是根據(jù)模式匹配原則，按照一定的相似度法則，使未知的模型和模型庫中的某一個(gè)參考模型獲得最大匹配度的過程。

常見的語音識(shí)別算法主要有：模版匹配法，如動(dòng)態(tài)時(shí)間規(guī)整（DTW）；隨機(jī)模型法，如隱馬爾可夫模型（HMM）；基于人工神經(jīng)網(wǎng)絡(luò)（ANN）的算法。

1. 動(dòng)態(tài)時(shí)間規(guī)整

在孤立詞識(shí)別中，最為簡單有效的方法就是采用DTW算法，這個(gè)方法解決了相同詞但發(fā)音長短不同時(shí)的匹配問題。

首先，孤立詞是什么？

我個(gè)人的理解就像是自然語言處理中的分詞，即把一段文字劃分為若干單詞去模板庫匹配。區(qū)別在于：一個(gè)是文字，一個(gè)是語音。

文字是依據(jù)句法、語法、語義劃分，而語音則是通過端點(diǎn)檢測(cè)算法確定語音的起點(diǎn)和終點(diǎn)（端點(diǎn)檢測(cè)算法見上一篇文章）。

其次，得到孤立詞后，會(huì)出現(xiàn)一個(gè)問題，如A同學(xué)“你好”中的“你”字發(fā)音拖長，B同學(xué)“再見”的“再”字的發(fā)音很短。那么該如何匹配到參考褲中的“你好”和“再見”呢？

這個(gè)例子就好比下圖（手手工示意圖，大家看看就好）：

很顯然，對(duì)于說話速度差異的限制，不符合實(shí)際語音的發(fā)展情況，需要一種更加符合實(shí)際情況的語音時(shí)間規(guī)整方法。DTW就是通過把時(shí)間序列進(jìn)行延伸和錯(cuò)單，來計(jì)算兩個(gè)時(shí)間序列之間的相似性。

2. 隱馬爾可夫模型（HMM）

隱馬爾可夫模型是一種統(tǒng)計(jì)模型，在語音識(shí)別、自然語言處理問題廣泛應(yīng)用。語音信號(hào)可看作一個(gè)可觀察序列，微觀上它在足夠小時(shí)間段上的特性近似于穩(wěn)定，宏觀上可看作一次從相對(duì)穩(wěn)定的某一特性過渡到另一特性，如：A->B->C->D。

假設(shè)產(chǎn)生一個(gè)語音時(shí)，分別經(jīng)歷4個(gè)狀態(tài)，分別是A-?>B->B-C-D-A-D。所有的狀態(tài)可以看作是x=狀態(tài)，y=時(shí)間的矩陣Q[4][6]，通過概率算法，計(jì)算出在4096（4*4*4*4*4*4）種情況中的最佳路徑ABBCDAD。

3. 人工神經(jīng)網(wǎng)絡(luò)（ANN）

人工神經(jīng)網(wǎng)絡(luò)是計(jì)算智能中的重要部分之一，是有大量簡單的基本元件-神經(jīng)元相互連接，模擬人的大腦神經(jīng)處理信息的方式，進(jìn)行信息并行處理和非線性變換的復(fù)雜網(wǎng)絡(luò)系統(tǒng)。

基于ANN的語音識(shí)別系統(tǒng)通常由神經(jīng)元、訓(xùn)練算法、網(wǎng)絡(luò)結(jié)構(gòu)三大要素構(gòu)成，具有高速的信息處理能力，并且有著較強(qiáng)的適應(yīng)和自動(dòng)調(diào)節(jié)能力，在訓(xùn)練過程中能不斷調(diào)整自身的參數(shù)權(quán)值和拓?fù)浣Y(jié)構(gòu)，這也是AI產(chǎn)品與傳統(tǒng)互聯(lián)網(wǎng)產(chǎn)品的的區(qū)別。

下面以BP神經(jīng)網(wǎng)路為例：

（1）什么是BP神經(jīng)網(wǎng)絡(luò)？

人工神經(jīng)元是對(duì)人或者其他生物的神經(jīng)元細(xì)胞的若干基本特性的抽象和模擬，生物神經(jīng)元主要由細(xì)胞體、樹突、軸突組成，樹突和軸突負(fù)責(zé)傳入和傳出信息，興奮性的沖動(dòng)沿著樹突抵達(dá)細(xì)胞體，在細(xì)胞膜上累積形成興奮性電位。

相反，抑制性沖動(dòng)到達(dá)細(xì)胞膜則形成抑制性電位，兩個(gè)電位進(jìn)行累加，若代數(shù)和超過閾值，則神經(jīng)元產(chǎn)生沖動(dòng)。

模仿生物神經(jīng)元產(chǎn)生沖動(dòng)的過程，可以建立一個(gè)人工神經(jīng)元數(shù)學(xué)模型，包括輸入向量、輸出值、激發(fā)函數(shù)、閾值、權(quán)值（神經(jīng)元與其他神經(jīng)元的連接強(qiáng)度）。神經(jīng)元?jiǎng)t是一個(gè)計(jì)算和儲(chǔ)存單元，將計(jì)算結(jié)果暫存并傳遞給下一個(gè)神經(jīng)元。

（2）BP神經(jīng)網(wǎng)絡(luò)是如何學(xué)習(xí)的？

BP神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過程由兩部分組成，分別是正向傳播和反向傳播。

正向傳播時(shí)，輸入信息從輸入層經(jīng)處理后傳向輸出層，每一層神經(jīng)元只對(duì)下一層的神經(jīng)元的狀態(tài)有影響。如果在輸出層得不到期望的輸出，則進(jìn)入反向傳播。
反向傳播時(shí)，誤差信號(hào)從輸入層向輸入層傳播并沿途調(diào)整各層間的權(quán)值。經(jīng)過不斷的迭代，最后將誤差盡可能降低。

如圖所示：

人工神經(jīng)網(wǎng)絡(luò)通常是針對(duì)靜態(tài)模式設(shè)計(jì)的，語音信號(hào)是一個(gè)時(shí)變信號(hào)，而且它的時(shí)變特性也是語音理解的一個(gè)重要特征——由于發(fā)音快慢節(jié)奏不一樣，發(fā)音時(shí)音節(jié)長短不會(huì)完全相同。

而大多數(shù)神經(jīng)網(wǎng)絡(luò)輸入結(jié)構(gòu)是固定的，采用BP算法，識(shí)別率并不是很高，通常需要將人工神經(jīng)額網(wǎng)絡(luò)做一些必要的修正。

本文由 @豬不會(huì)飛原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可，禁止轉(zhuǎn)載

題圖來自Unsplash，基于CC0協(xié)議

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App

AI產(chǎn)品經(jīng)理需要掌握的AI技術(shù)文章被收錄于該專欄

共 13 篇文章17679 人已學(xué)習(xí)

豬不會(huì)飛

百度產(chǎn)品經(jīng)理

4篇作品 45995總閱讀量

B站能否憑借自制內(nèi)容破局？

06-011674 瀏覽

如何運(yùn)用費(fèi)茨定律簡化交互設(shè)計(jì)？

03-035319 瀏覽

多因素身份驗(yàn)證（MFA）強(qiáng)化帳戶安全性

05-192798 瀏覽

反抗OpenAI“白嫖”，Reddit卻先被自家用戶“爆吧”了？

06-251480 瀏覽

脈脈、兼職貓逐夢(mèng)AIGC，在線招聘江湖醞釀新變？

06-063345 瀏覽

評(píng)論

Up

我們公司也要做一個(gè)新的AI產(chǎn)品，可以加您請(qǐng)教一下嘛

最近回復(fù)
無羨

app產(chǎn)品想轉(zhuǎn)ai，可以請(qǐng)教您么？

最近回復(fù)
SH1807

我們公司最近想做個(gè)ai產(chǎn)品。可以請(qǐng)教你嗎？

最近回復(fù)
1. 豬不會(huì)飛作者回復(fù)SH1807
  
  可以互相學(xué)習(xí)哈～
  
  最近回復(fù)