AI產(chǎn)品經(jīng)理需了解的技術知識:自然語言理解技術NLU

2 評論 9792 瀏覽 97 收藏 8 分鐘

本文章主要介紹了NLU技術的算法包括詞法分析、句法分析、語義分析,有助于PM了解技術實現(xiàn)邊界,產(chǎn)品快捷高效的落地~

自然語言理解技術(NLU)是人機對話產(chǎn)品中的重要一環(huán),是指機器能夠執(zhí)行人類所期望的某些語言功能,換句話說就是人與機器交流的橋梁。

語言理解主要包括以下方面內(nèi)容:

  1. 能夠理解句子的正確次序規(guī)則和概念,又能理解不含規(guī)則的句子;
  2. 知道詞的確切含義、形式、詞類及構(gòu)詞法;
  3. 了解詞的語義分類、詞的多義性、詞的歧義性;
  4. 指定和不定特性及所有特性;
  5. 問題領域的結(jié)構(gòu)知識和實踐概念;
  6. 語言的語氣信息和韻律表現(xiàn);
  7. 有關語言表達形式的文字知識;
  8. 論域的背景知識。

語言理解通常分為三個層次:詞法分析、句法分析、語義分析。

詞法分析

詞法分析是自然語言處理的技術基礎,也是自然語言理解過程的第一層,因此詞法分析的性能直接影響到后面句法和語義分析的成果。主要包括自動分詞、詞性標注、中文命名實體標注三方面內(nèi)容。

1. 自動分詞

現(xiàn)有分詞的算法分為三大類:基于詞典的分詞方法、基于統(tǒng)計的分詞方法、基于理解的分詞方法。

當前主流的方法還是基于詞典進行分詞,主要包括正向最大匹配、逆向最大匹配、雙向最大匹配。原理是按照既定的規(guī)則順序,將目標字符串依次與詞典匹配,匹配成功就取出該詞,直到整個字符串全部匹配,如在詞典中匹配到,就取出單字。

case:字串“召開大學生運動會”,分別通過三種分詞算法進行切分:

(1)正向最大匹配

第一輪取詞

第1次:“召開大學生運動會”掃描詞典,無匹配

第2次:“召開大學生運動”掃描詞典,無匹配

第3次:“召開大學生運”掃描詞典,無匹配

第4次:“召開大學生”掃描詞典,無匹配

….

第7次:“召開”掃描詞典,匹配

第二輪取詞

第1次:“大學生運動會”掃描詞典,無匹配

第2次:“大學生運動”掃描詞典,無匹配

…..

第4次:“大學生”掃描詞典,無匹配

第5次:“大學”掃描詞典,匹配

分詞結(jié)果:召開/大學/生/運動/會

(2)逆向最大匹配

第一輪取詞:

第1次:“召開大學生運動會”掃描詞典,無匹配

第2次:“開大學生運動會”掃描詞典,無匹配

….

第8次:“會”

第二輪取詞:

第1次:“召開大學生運動”掃描詞典,無匹配

第2次:“開大學生運動”掃描詞典,無匹配

第6次:“運動”掃描詞典,匹配

分詞結(jié)果:召開/大/學生/運動/會

(3)雙向最大匹配

將正向最大匹配和逆向最大匹配算法得到的結(jié)果進行比較,從而確定正確的分詞方法。

選擇的依據(jù)如下:

  1. 大顆粒度詞越多越好;
  2. 非詞典詞越少越好;
  3. 單字詞越少越好。

2. 詞性標注

詞性標注是對分詞結(jié)果中的每個單詞標注一個正確的詞性,例如:每個詞是名詞、動詞還是形容詞等。漢語中,詞性標注筆記哦啊簡單,因為大多詞語只有一個詞性,或者出現(xiàn)頻次最高的詞性遠遠高于第二位的詞性。

因此在詞性標注時,一般先針對已存在的詞庫進行統(tǒng)計學處理,建立詞性標注模型,進而通過概率判斷每個詞的詞性。

3. 中文命名實體

命名實體就是獎文本中的元素分成預先定義的類,例如:人名、地名、時間、百分比等。它的技術方法主要分為基于規(guī)則和詞典、基于統(tǒng)計、二者結(jié)合的方法。

基于規(guī)則和詞典的方法,大多是由語言學專家構(gòu)造規(guī)則模板然后進行匹配。這個時候,詞典和知識庫的創(chuàng)建會直接影響命名實體的準確率。

舉個簡單規(guī)則的例子:人名=【姓氏】+【名字】,那么分別建立“姓氏”、“名字”庫,如字串命中,則識別出包含人名實體。

基于統(tǒng)計的方法,主要是通過對訓練語料所包含的語言信息進行統(tǒng)計和分析,從許年語料中挖掘出特征。因此這種方法對語料庫的依賴比較大,而用來建設和評估命名實體識別系統(tǒng)的大規(guī)模通用語料庫又比較少。

句法分析

句法分析的目標是自動推導出句子的句法結(jié)構(gòu),實現(xiàn)這個目標首先要確定語法體系,不同的語法體系會產(chǎn)生不同的句法結(jié)構(gòu)。常見語法體系有短語結(jié)構(gòu)語法、依存關系語法。

依存關系語法

同樣分為基于規(guī)則和基于統(tǒng)計的兩種方法,基本自然語言的技術中,很多都是基于“詞典/規(guī)則”+“統(tǒng)計”的方法。

(1)基于規(guī)則的方法

  • 優(yōu)點在于:可以最大限度的接近自然語言的句法習慣、表達方式靈活多樣,可以最大限度的表達研究人員的思想;
  • 缺點在于:規(guī)則刻畫的知識粒度難以確定,無法確保規(guī)則的一致性,獲取規(guī)則同樣是一個繁瑣的過程。

(2)基于統(tǒng)計的方法

目前是句法分析的主流技術,確定語法體系后,需要按照語法體系人工標注句子的語法結(jié)構(gòu),將其作為訓練的語料。因此語料庫的建設是非常關鍵的。

語義分析

語義分析就是指分析話語中所包含的含義,根本目的是理解自然語言。分為詞匯級語義分析、句子級語義分析、段落/篇章級語義分析,即分別理解詞語、句子、段落的意義。

這部分在我的工作中相對前兩部分應用的較少一些,因此沒有過多的進行學習了解。

理解NLU技術的基本原理和算法可以在PM優(yōu)化產(chǎn)品時起到很大的幫助,使我在產(chǎn)品設計時,可以提前了解技術邊界,在和研發(fā)溝通時,效率也更高。

 

本文由 @豬不會飛 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請關注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 大神,可否加個微信。最近在鉆研NLP,CV方面的知識;向您學習一下;

    來自北京 回復