一文讀懂智能助理的前世今生

樊帆fan
1 評(píng)論 17955 瀏覽 52 收藏 35 分鐘
🔗 产品经理在不同的职业阶段,需要侧重不同的方面,从基础技能、业务深度、专业领域到战略规划和管理能力。

本文從智能助理的基本邏輯出發(fā),詳細(xì)分析了國(guó)內(nèi)外主要智能助理亞馬遜ALEXA、Google Assistant、蘋(píng)果Siri、微軟Cortana、百度度秘、騰訊叮當(dāng)、天貓精靈和阿里小蜜的發(fā)展歷史和主要功能,并給出自己對(duì)微軟小娜、蘋(píng)果Siri、百度度秘、騰訊叮當(dāng)?shù)捏w驗(yàn)和分析預(yù)測(cè)。

隨著人工智能行業(yè)的發(fā)展,智能個(gè)人助理作為人工智能系統(tǒng)應(yīng)用相對(duì)成熟的領(lǐng)域也慢慢被大眾熟知。

智能助理可以理解為利用AI技術(shù)通過(guò)統(tǒng)一的對(duì)話(huà)交互界面來(lái)一站式給用戶(hù)提供需要的信息和服務(wù)。

目前蘋(píng)果、谷歌、微軟、亞馬遜已投入大量資源,積極研發(fā)并推出了Siri、Google Assistant、Alexa、Cortana等具有代表性的智能助理。

而國(guó)內(nèi)互聯(lián)網(wǎng)三大巨頭BAT也通過(guò)組建實(shí)驗(yàn)室、招募AI高端人才等方式緊鑼密鼓地發(fā)布了百度度秘、阿里小蜜、騰訊叮當(dāng)?shù)?,力圖從智能助理的場(chǎng)景切入,完成在未來(lái)人工智能市場(chǎng)的布局。

一、智能助理基本邏輯

智能助理也可以看作是任務(wù)導(dǎo)向的chatbot,實(shí)現(xiàn)邏輯與chatbot相似,但是多了業(yè)務(wù)處理的流程,智能助理會(huì)根據(jù)對(duì)話(huà)管理返回的結(jié)果進(jìn)行相關(guān)業(yè)務(wù)的處理。

一個(gè)包括語(yǔ)音交互的chatbot的架構(gòu)如下圖所示:

一般chatbot由語(yǔ)音識(shí)別(ASR)、語(yǔ)音合成(TTS)、自然語(yǔ)言理解(NLU)、對(duì)話(huà)管理(DM)、自然語(yǔ)言生成(NLG)幾個(gè)模塊組成,其中:

  • 語(yǔ)音識(shí)別:完成語(yǔ)音到文本的轉(zhuǎn)換,將用戶(hù)說(shuō)話(huà)的聲音轉(zhuǎn)化為語(yǔ)音。
  • 自然語(yǔ)言理解:完成對(duì)文本的語(yǔ)義解析,提取關(guān)鍵信息,進(jìn)行意圖識(shí)別與實(shí)體識(shí)別。
  • 對(duì)話(huà)管理:負(fù)責(zé)對(duì)話(huà)狀態(tài)維護(hù)、數(shù)據(jù)庫(kù)查詢(xún)、上下文管理等。
  • 自然語(yǔ)言生成:生成相應(yīng)的自然語(yǔ)言文本。
  • 語(yǔ)音合成:將生成的文本轉(zhuǎn)換為語(yǔ)音。

通常智能助理一個(gè)完整的交互流程是這樣的:

首先:音頻被記錄在設(shè)備上,經(jīng)過(guò)壓縮傳輸?shù)皆贫恕Mǔ?huì)采用降噪算法來(lái)記錄音頻,以便云端“大腦”更容易理解用戶(hù)的命令。然后使用“語(yǔ)音到文本”平臺(tái)將音頻轉(zhuǎn)換成文本命令。 通過(guò)指定的頻率對(duì)模擬信號(hào)進(jìn)行采樣,將模擬聲波轉(zhuǎn)換為數(shù)字?jǐn)?shù)據(jù),分析數(shù)字?jǐn)?shù)據(jù)以確定音素的出現(xiàn)位置。 一旦識(shí)別出音素,就使用算法來(lái)確定對(duì)應(yīng)的文本。

然后:使用自然語(yǔ)言理解技術(shù)來(lái)處理文本,首先使用詞性標(biāo)注來(lái)確定哪些詞是形容詞、動(dòng)詞和名詞等,然后將這種標(biāo)記與統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型相結(jié)合起來(lái),推斷句子的含義。

最后:進(jìn)入對(duì)話(huà)管理模塊,確認(rèn)用戶(hù)提供的信息是否完整,否則進(jìn)行多輪對(duì)話(huà)直至得到所需全部信息。根據(jù)得到的信息進(jìn)行相應(yīng)的業(yè)務(wù)處理,執(zhí)行命令。同時(shí)將結(jié)果生成自然語(yǔ)言文本,并由語(yǔ)音合成模塊將生成文本轉(zhuǎn)換為語(yǔ)音。在這些模塊中,對(duì)話(huà)管理(DM)模塊的首要任務(wù)是要負(fù)責(zé)管理整個(gè)對(duì)話(huà)的流程。

通過(guò)對(duì)上下文的維護(hù)和解析,對(duì)話(huà)管理模塊要決定用戶(hù)提供的意圖是否明確,以及實(shí)體槽的信息是否足夠進(jìn)行數(shù)據(jù)庫(kù)查詢(xún)或開(kāi)始履行相應(yīng)的任務(wù)。

當(dāng)對(duì)話(huà)管理模塊認(rèn)為用戶(hù)提供的信息不全或者模棱兩可時(shí),就要維護(hù)一個(gè)多輪對(duì)話(huà)的語(yǔ)境,不斷引導(dǎo)式地去詢(xún)問(wèn)用戶(hù)以得到更多的信息,或者提供不同的可能選項(xiàng)讓用戶(hù)選擇。

對(duì)話(huà)管理模塊要存儲(chǔ)和維護(hù)當(dāng)前對(duì)話(huà)的狀態(tài)、用戶(hù)的歷史行為、系統(tǒng)的歷史行為、知識(shí)庫(kù)中的可能結(jié)果等。當(dāng)認(rèn)為已經(jīng)清楚得到了全部需要的信息后,對(duì)話(huà)管理模塊就要將用戶(hù)的查詢(xún)變成相應(yīng)的數(shù)據(jù)庫(kù)查詢(xún)語(yǔ)句去知識(shí)庫(kù)(如知識(shí)圖譜)中查詢(xún)相應(yīng)資料,或者實(shí)現(xiàn)和完成相應(yīng)的任務(wù)(如購(gòu)物下單,或是類(lèi)似Siri撥打xx的電話(huà),或是智能家居去拉起窗簾等)。

實(shí)際實(shí)現(xiàn)中,對(duì)話(huà)管理模塊因?yàn)榧缲?fù)著大量雜活的任務(wù),是跟使用需求強(qiáng)綁定的,大部分使用規(guī)則系統(tǒng),實(shí)現(xiàn)和維護(hù)都比較繁瑣。

規(guī)則的描述主要基于正則表達(dá)式或者類(lèi)似正則表達(dá)式的pattern,用戶(hù)的問(wèn)題匹配到這樣的pattern上,從而取得答案結(jié)果。

使用規(guī)則的好處是準(zhǔn)確率高,但是缺點(diǎn)也很明顯:用戶(hù)的句式千變?nèi)f化,規(guī)則只能覆蓋比較少的部分。

而越寫(xiě)越多的規(guī)則也極其難維護(hù),常常有可能會(huì)發(fā)生互相矛盾的規(guī)則,而往往一個(gè)業(yè)務(wù)邏輯的改動(dòng)就要牽一發(fā)而動(dòng)全身。另一個(gè)方法是維護(hù)一個(gè)龐大的問(wèn)答數(shù)據(jù)庫(kù),對(duì)用戶(hù)的問(wèn)題通過(guò)計(jì)算句子之間的相似度來(lái)尋找數(shù)據(jù)庫(kù)中已有的最相近的問(wèn)題來(lái)給出相應(yīng)答案。

目前任務(wù)導(dǎo)向chatbot也在逐漸使用基于深度學(xué)習(xí)的端到端來(lái)實(shí)現(xiàn)架構(gòu)。

簡(jiǎn)要來(lái)說(shuō)就是將用戶(hù)輸入的內(nèi)容直接映射到系統(tǒng)的回答上,但是這種方式也存在需要大量的訓(xùn)練數(shù)據(jù)的問(wèn)題,還不能完全取代傳統(tǒng)規(guī)則系統(tǒng)。

智能助理發(fā)展至今也遇到一些瓶頸問(wèn)題,人腦畢竟十分復(fù)雜,用戶(hù)問(wèn)出的問(wèn)題有時(shí)即使是人也需要結(jié)合多年生活經(jīng)驗(yàn)和知識(shí)才能理解,所以這些問(wèn)題對(duì)智能助理來(lái)說(shuō)意圖理解難度很高,知識(shí)復(fù)雜度也比較高。所以現(xiàn)在不少公司的思路是做垂直領(lǐng)域的智能助理,場(chǎng)景比較小,語(yǔ)料庫(kù)、語(yǔ)義相對(duì)有限,對(duì)話(huà)容易收斂。

了解了智能助理的基本實(shí)現(xiàn)邏輯之后我們來(lái)看下目前比較主流的智能助理產(chǎn)品。

二、亞馬遜ALEXA

亞馬遜于2014年推出智能音箱Echo,主要功能集中在語(yǔ)音購(gòu)物和對(duì)智能家居的控制上。隨著Echo成為家庭的交互入口,其搭載的“大腦”Alexa智能語(yǔ)音助手也開(kāi)始遍地開(kāi)花。

通過(guò)亞馬遜Alexa與智能家居設(shè)備的連接,用戶(hù)可以輕松控制智能家居設(shè)備,如開(kāi)關(guān)燈、開(kāi)關(guān)窗簾、開(kāi)關(guān)電視等。Alexa還可以通過(guò)多個(gè)信息源播放流媒體音樂(lè)和閱讀新聞,提供天氣、交通等信息,以及通過(guò)語(yǔ)音在A(yíng)mazon Prime會(huì)員服務(wù)上購(gòu)物,甚至還可以預(yù)訂披薩。

2015年6月,亞馬遜宣布將Alexa開(kāi)放給第三方開(kāi)發(fā)者,發(fā)布了 Alexa Skills Kit(ASK)和Alexa Voice Service (AVS)兩套工具包,越來(lái)越多非亞馬遜產(chǎn)品設(shè)備也開(kāi)始支持Alexa了。

強(qiáng)大的開(kāi)放性加上全面陣線(xiàn)的拉開(kāi),Alexa逐漸取得先發(fā)入場(chǎng)優(yōu)勢(shì)。

目前Alexa已經(jīng)可以支持亞馬遜語(yǔ)音設(shè)備(Echo、Echo Dot、Tap)和Fire TV機(jī)頂盒,亞馬遜正在嘗試讓Alexa支持其他可連接設(shè)備,比如鬧鐘和寵物喂食器。不過(guò)Alexa目前在國(guó)內(nèi)還不可用,必須“科學(xué)”上網(wǎng)才可以使用Alexa的服務(wù)。

對(duì)于智能音箱用戶(hù)而言,與音箱中語(yǔ)音助手的每一句對(duì)話(huà)都需要通過(guò)重復(fù)使用喚醒詞才能實(shí)現(xiàn),無(wú)法與之進(jìn)行一場(chǎng)正常的,具備連續(xù)性的對(duì)話(huà),在感覺(jué)上極不自然。

Alexa此前就為所有英文Alexa用戶(hù)推出Follow Up Mode,當(dāng)你發(fā)出一個(gè)指令后,Alexa將會(huì)繼續(xù)收聽(tīng)接下來(lái)的指令,你可以進(jìn)行連續(xù)的指令,不需要重復(fù)呼叫“Alexa”來(lái)喚醒它。用戶(hù)可以通過(guò) Cancel 、Go To Sleep 這樣的指令主動(dòng)終止對(duì)話(huà),或者Alexa在檢測(cè)到用戶(hù)停止說(shuō)話(huà)之后自動(dòng)終止對(duì)話(huà)。

不過(guò)目前Alexa主要在智能家居上發(fā)力,因?yàn)閬嗰R遜沒(méi)有自己的智能手機(jī)平臺(tái),所以目前還沒(méi)有實(shí)現(xiàn)智能家居控制和智能手機(jī)的整合。

華為也于今年8月底發(fā)布了一款搭載Alexa的智能音箱AI Cube,這款產(chǎn)品僅在海外銷(xiāo)售,Alexa在全球智能家居市場(chǎng)的影響力也可見(jiàn)一斑。

三、Google Assistant

2016年5月,谷歌重磅發(fā)布了全新語(yǔ)音智能助手Google Assistant。

背靠Google十余年的努力,GoogleAssistant利用了大數(shù)據(jù)、機(jī)器學(xué)習(xí)、自然語(yǔ)義分析等一系列技術(shù),能夠在不斷對(duì)話(huà)之中為用戶(hù)解決問(wèn)題,而不像之前那樣只能用簡(jiǎn)單的提問(wèn)和回答。

在技術(shù)強(qiáng)化之外,GoogleAssistant的產(chǎn)品邏輯也在不斷進(jìn)化。通過(guò)讓視覺(jué)、語(yǔ)音、文字等多個(gè)人機(jī)交互方式的無(wú)縫組合,實(shí)現(xiàn)更積極地對(duì)話(huà),以及更個(gè)性化的推薦。

Google Assistant從某種角度可以說(shuō)是Google Now的進(jìn)化版,比Google Now增加了雙向?qū)υ?huà),且對(duì)一些功能進(jìn)行了優(yōu)化。

作為Google在A(yíng)I方面的核心之一,目前Google已經(jīng)幾乎把所有資源和能力都傾向Google Assistant,力圖用Google Assistant來(lái)把整個(gè)市場(chǎng)格局鋪開(kāi)。

今年5月份舉辦的谷歌I/O大會(huì)谷歌CEO Sundar Pichai宣布谷歌助手已經(jīng)登陸5億臺(tái)設(shè)備,將于今年底支持30種語(yǔ)言,80多個(gè)國(guó)家可用。

此外,Google Assistant還在積極向外部合作進(jìn)行拓展,還與70多家智能家居廠(chǎng)商達(dá)成了合作,呈現(xiàn)出更加包容的開(kāi)放性。

Google Assistant今年在人機(jī)交互的智能性上做出了非常大的突破。

5月份舉辦的谷歌I/O大會(huì)谷歌 CEO Pichai現(xiàn)場(chǎng)展示了升級(jí)后的Google Assistant新能力,包括支持自動(dòng)分解對(duì)話(huà),并進(jìn)行多重回復(fù)。也就是說(shuō):當(dāng)用戶(hù)一句話(huà)里面問(wèn)了兩個(gè)問(wèn)題,谷歌助手會(huì)分開(kāi)回答,同時(shí)人聲發(fā)音更加自然流暢。

另一項(xiàng)重磅功能便是Google Assistant的Google Duplex,可以代打預(yù)約電話(huà),幫助用戶(hù)點(diǎn)外賣(mài)、查路線(xiàn)、預(yù)訂理發(fā)店、預(yù)訂飯店。通過(guò)與Google Assistant對(duì)話(huà),告訴它你想要預(yù)定什么店,什么時(shí)間和多少人,Google Assistant便會(huì)直接撥打電話(huà)給這家店,并用人的口語(yǔ)和發(fā)音,和對(duì)方聊天,確定好預(yù)約信息。整個(gè)演示過(guò)程中Google Assistant表現(xiàn)得非常接近真人,不知情的商家直到電話(huà)結(jié)束都沒(méi)有意識(shí)到自己在和 AI 對(duì)話(huà)。

另外,Google已于今年6月21日正式宣布Continued Conversation時(shí)代的到來(lái)。

與Alexa的follow up模式類(lèi)似,連續(xù)對(duì)話(huà)功能使得用戶(hù)可以與 Google Assistant 進(jìn)行更加自然的會(huì)話(huà),而無(wú)需在一場(chǎng)對(duì)話(huà)中多次重復(fù) Hey Google。開(kāi)啟該功能之后,只需用 Hey Google 或者 OK Google 喚起一次Google Assistant,就可以與之進(jìn)行連續(xù)對(duì)話(huà)(買(mǎi)東西、設(shè)置鬧鈴、查天氣等)。

用戶(hù)可以通過(guò) Thank You 或者 Stop 主動(dòng)終止對(duì)話(huà),或者 Google Assistant 在檢測(cè)到用戶(hù)停止說(shuō)話(huà)之后自動(dòng)終止對(duì)話(huà)。

當(dāng)然,在終止對(duì)話(huà)之前,Google Assistant 會(huì)等待足夠的時(shí)間來(lái)回應(yīng)用戶(hù)。目前該功能僅支持在 Google Home、Google Home Max 和 Google Home Mini 三款設(shè)備,而搭載 Google Assistant 的智能手機(jī)、智能電視等設(shè)備暫時(shí)得不到支持。另外,谷歌助手的連續(xù)對(duì)話(huà)功能與Alexa的follow up模式同樣只支持英語(yǔ)。

此外,Google Assistant從今年9月起就已經(jīng)可以支持雙語(yǔ)無(wú)縫切換識(shí)別。

當(dāng)用戶(hù)混用兩種語(yǔ)言向Google Assistant提出問(wèn)題時(shí),利用深度神經(jīng)網(wǎng)絡(luò)開(kāi)發(fā)口語(yǔ)識(shí)別(LangID)技術(shù),谷歌助手都能夠識(shí)別出來(lái),并且做出回應(yīng),而這只需用戶(hù)設(shè)置好兩種語(yǔ)言即可。

谷歌近年來(lái)在 AI 領(lǐng)域積累了大量的領(lǐng)先優(yōu)勢(shì),Google Assistant作為其在A(yíng)I方面的核心之一,已經(jīng)取得了相當(dāng)不俗的成績(jī)。

四、蘋(píng)果Siri

2011 年,在 iPhone 4s 面世的當(dāng)天,蘋(píng)果 Siri 也以智能語(yǔ)音助手的身份初次正式亮相,并成為當(dāng)時(shí)發(fā)布會(huì)上最大的亮點(diǎn)。

它是蘋(píng)果在iPhone、iPad等產(chǎn)品中使用的一項(xiàng)智能語(yǔ)音控制系統(tǒng),目前已經(jīng)可以支持Apple TV和Apple Watch。

通過(guò)Siri,用戶(hù)可以輕松的實(shí)現(xiàn)設(shè)置鬧鐘、推薦本地商戶(hù)、進(jìn)行路線(xiàn)規(guī)劃、播放音樂(lè)、讀發(fā)短信、安排日程、定時(shí)提醒、獲取資訊、搜索資料、實(shí)時(shí)翻譯等功能,Siri還通過(guò)用戶(hù)的行為習(xí)慣,前瞻性地向用戶(hù)推薦需要執(zhí)行的行為等。

Siri其實(shí)是語(yǔ)音助手領(lǐng)域里起步比較早的應(yīng)用,是大眾認(rèn)知里熟悉度最高的個(gè)人智能助理,也使大眾第一次對(duì)智能助手的概念有了認(rèn)知,“調(diào)戲”Siri也曾是風(fēng)靡一時(shí)的娛樂(lè)項(xiàng)目。

但是在過(guò)去的幾年時(shí)間里,它的智能程度顯然沒(méi)有得到較大提升,現(xiàn)在仍然還是在吃老本的階段。

Siri目前還未完全開(kāi)放Sirikit給開(kāi)發(fā)者,跟第三方應(yīng)用整合的進(jìn)度也十分緩慢。

Siri曾經(jīng)作為智能助手的先鋒如今地位卻有些尷尬,究其原因,與Siri團(tuán)隊(duì)的動(dòng)蕩以及蘋(píng)果對(duì)Siri的規(guī)劃頻繁變動(dòng)分不開(kāi)關(guān)系。

五、微軟Cortana

2014年2月,微軟公司推出了自己的語(yǔ)音助手小娜(Cortana),并嵌入安裝Windows操作系統(tǒng)的計(jì)算機(jī)和手機(jī)中。

它是一款基于語(yǔ)音和文本的虛擬助手,目前已經(jīng)可以支持Windows、iOS、以及Android系統(tǒng)。借助微軟自身深厚的技術(shù)功底,Cortana實(shí)現(xiàn)了對(duì)語(yǔ)音的較高識(shí)別率和與系統(tǒng)功能的深度集成,給用戶(hù)帶來(lái)了不少便利。

Cortana可以處理事務(wù)提醒和日常預(yù)約,設(shè)置鬧鐘,同時(shí)它還能啟動(dòng)Bing(必應(yīng))搜索引擎獲取體育,天氣和其他信息。

小娜還會(huì)對(duì)用戶(hù)的習(xí)慣和喜好進(jìn)行學(xué)習(xí),在 Cortana與用戶(hù)對(duì)話(huà)時(shí),它并不是簡(jiǎn)單地基于存儲(chǔ)式的問(wèn)答,而是同時(shí)記錄下用戶(hù)的行為和使用習(xí)慣,利用云計(jì)算、搜索引擎和非結(jié)構(gòu)化數(shù)據(jù)分析,讀取和學(xué)習(xí)包括手機(jī)中的文本文件、電子郵件、圖片、視頻等數(shù)據(jù),來(lái)理解用戶(hù)的語(yǔ)義和語(yǔ)境,從而實(shí)現(xiàn)人機(jī)智能交互。

Cortana相比于強(qiáng)調(diào)任務(wù)和效率,更注重它與用戶(hù)之間的情感連接和親密關(guān)系,隨著Cortana越來(lái)越了解用戶(hù)的行為習(xí)慣,它可以做出更加個(gè)性化的的智能推薦。

2016年12月,微軟在舊金山宣布,把Cortana開(kāi)放給第三方硬件公司,使其可以集成至音響、汽車(chē)等多種硬件。

今年8月,微軟Cortana和亞馬遜Alexa正式結(jié)盟,推出了融合后的服務(wù)。一個(gè)微軟Cortana的用戶(hù),可以通過(guò)相關(guān)的語(yǔ)音指令直接在亞馬遜網(wǎng)站進(jìn)行購(gòu)物。

另外,亞馬遜Echo智能音箱的用戶(hù),也能夠通過(guò)微軟Cortana的幫助,回復(fù)Windows中的電子郵件,或是設(shè)置日程提醒等。融合語(yǔ)音助手的服務(wù)首先作為公眾預(yù)覽版對(duì)美國(guó)用戶(hù)發(fā)布。

其中,亞馬遜Echo音箱的用戶(hù)能夠通過(guò)Alexa獲取Cortana的服務(wù),另外Windows10個(gè)人電腦用戶(hù)以及三星電子旗下哈曼國(guó)際公司Kardon Invoke智能音箱的用戶(hù),也能夠在Cortana中獲得Alexa服務(wù)。

目前在產(chǎn)品實(shí)用性和用戶(hù)體驗(yàn)這個(gè)維度上,Cortana還是落后于谷歌助手和亞馬遜Alexa。在和第三方硬件產(chǎn)品和互聯(lián)網(wǎng)服務(wù)的整合方面,微軟Cortana更是明顯落后于谷歌和亞馬遜。

六、百度度秘

度秘是李彥宏在2015年9月8日百度世界大會(huì)上推出的對(duì)話(huà)式人工智能秘書(shū)。

度秘基于DuerOS對(duì)話(huà)式人工智能系統(tǒng),用戶(hù)可以使用文字、圖片或者語(yǔ)音與百度機(jī)器人進(jìn)行交流溝通,度秘通過(guò)語(yǔ)音識(shí)別、自然語(yǔ)言處理和圖像識(shí)別可以在對(duì)話(huà)中清晰的理解用戶(hù)的多種需求,進(jìn)而在廣泛索引真實(shí)世界的服務(wù)和信息的基礎(chǔ)上,為用戶(hù)提供各種優(yōu)質(zhì)服務(wù)。

依托百度搜索能力、百度地圖、百度糯米等O2O類(lèi)的服務(wù),度秘可以覆蓋用戶(hù)衣、食、住、行、玩各方面的需求和推薦,擴(kuò)展了用戶(hù)對(duì)于服務(wù)的體驗(yàn)寬度和深度,也是每個(gè)商家不可錯(cuò)過(guò)的新入口和新商機(jī)。

此外,目前DuerOS已經(jīng)可以提供為第三方接入的Bots Platform,能夠賦能于手機(jī)、智能家居、可穿戴設(shè)備以及車(chē)載等多個(gè)場(chǎng)景,搭載DuerOS落地的主控設(shè)備也超過(guò)了80余款,不乏聯(lián)想、美的、海爾、小米等知名企業(yè),設(shè)備激活數(shù)量已經(jīng)突破5000萬(wàn)。

百度現(xiàn)在的戰(zhàn)略已經(jīng)是“all in?AI ”,同樣是做搜索引擎發(fā)家,百度與谷歌因?yàn)橹忻纼蓢?guó)的互聯(lián)網(wǎng)環(huán)境不同,在A(yíng)I領(lǐng)域的布局思路也不盡相同。

谷歌依托自己自身的系統(tǒng),力圖在已有生態(tài)上嵌入AI服務(wù)。

而百度因?yàn)槿鄙傧到y(tǒng)級(jí)入口,更多的采用從服務(wù)和場(chǎng)景的角度構(gòu)建生態(tài)的思路,利用AI撬開(kāi)新生態(tài),更側(cè)重于“連接服務(wù)”。

在國(guó)內(nèi)市場(chǎng),團(tuán)購(gòu)、O2O、新零售、共享經(jīng)濟(jì)等已經(jīng)高度發(fā)達(dá),用戶(hù)更需要能夠提供無(wú)感服務(wù)的AI,只需要一個(gè)指令,智能助手就可以幫助我們訂餐、購(gòu)物、打車(chē)、閱讀新聞等。百度便是基于DuerOS給用戶(hù)提供美食、電影、外賣(mài)、酒店、購(gòu)物、打車(chē)、保潔、旅游、充值等多種生活O2O服務(wù),憑借簡(jiǎn)單的數(shù)據(jù)交換就可以做到。

在這個(gè)意義上,谷歌助手的Google Duplex功能雖然炫酷,但也僅僅適用于多數(shù)服務(wù)無(wú)法直接通過(guò)網(wǎng)上預(yù)約的美國(guó)市場(chǎng)。

七、騰訊叮當(dāng)

2017年4月,騰訊推出智能語(yǔ)音助手“騰訊叮當(dāng)”,它基于自然語(yǔ)言理解和海量的語(yǔ)料標(biāo)注數(shù)據(jù),整合了信息服務(wù)、內(nèi)容服務(wù)、生活服務(wù)和各種硬件的連接服務(wù),覆蓋新聞、體育賽事、票務(wù)、快遞、音樂(lè)、股票、文學(xué)、LBS的附近資源等領(lǐng)域,功能與亞馬遜Alexa相似,是一款基于騰訊技術(shù)生態(tài)和內(nèi)容生態(tài)迅速發(fā)力的產(chǎn)品,可以提供智能助手產(chǎn)品形態(tài)和平臺(tái)級(jí)的業(yè)務(wù)支持,連接廣泛的智能化需求和海量的服務(wù)資源。

騰訊叮當(dāng)可以說(shuō)是騰訊在人工智能領(lǐng)域的探路石。

目前叮當(dāng)已經(jīng)可以提供API和SDK接入方式給廠(chǎng)商,類(lèi)似智能穿戴、智能音箱、智能車(chē)載、智能電視以及各類(lèi)形態(tài)的機(jī)器人,都可以搭載騰訊叮當(dāng)AI助手。

八、阿里天貓精靈和阿里小蜜

阿里在智能助理這個(gè)領(lǐng)域有兩個(gè)比較知名的產(chǎn)品,一個(gè)是智能音箱天貓精靈,另一個(gè)則是主打購(gòu)物這個(gè)細(xì)分場(chǎng)景的阿里小蜜。

天貓精靈是阿里巴巴AI labs于2017年7月5日發(fā)布的AI智能產(chǎn)品品牌,當(dāng)天同步發(fā)布了天貓精靈首款硬件產(chǎn)品——AI智能語(yǔ)音終端設(shè)備天貓精靈X1。

天貓精靈X1內(nèi)置AliGenie操作系統(tǒng),AliGenie依賴(lài)云端,能夠聽(tīng)懂中文普通話(huà)語(yǔ)音指令,目前可實(shí)現(xiàn)智能家居控制、語(yǔ)音購(gòu)物、手機(jī)充值、叫外賣(mài)、音頻音樂(lè)播放等功能。

天貓精靈整合了市場(chǎng)中的內(nèi)容資源、音頻資源、技術(shù)資源以及自身的平臺(tái)資源。接入的互聯(lián)網(wǎng)服務(wù)內(nèi)容多為阿里生態(tài)自身內(nèi)容,但依靠阿里自身的布局,服務(wù)數(shù)量很客觀(guān)。家居控制方面,支持阿里小智以及bordlink等品牌商的接入。

AliGenie開(kāi)發(fā)者平臺(tái)是主要面向四種類(lèi)型的開(kāi)發(fā)者,包括內(nèi)容開(kāi)發(fā)者、應(yīng)用開(kāi)發(fā)者、智能家居開(kāi)發(fā)商和硬件生產(chǎn)商。開(kāi)發(fā)者既可以創(chuàng)建技能,為更多的語(yǔ)音用戶(hù)提供服務(wù),也可以將自己的設(shè)備接入云端服務(wù),獲取語(yǔ)音交互能力。

在智能助手這個(gè)場(chǎng)景下,由于不同情境下語(yǔ)言的意義可以多種多樣,有時(shí)意圖無(wú)法確認(rèn),所以不少產(chǎn)品的思路是限定談話(huà)的領(lǐng)域,從寬度發(fā)展變?yōu)樯疃劝l(fā)展,也就是做更加細(xì)分的垂直領(lǐng)域的智能助理。

具體來(lái)說(shuō)就是在一個(gè)細(xì)分的場(chǎng)景下,用戶(hù)產(chǎn)生大量相似的疑問(wèn)和需求,目標(biāo)明確或半明確且可能需要引導(dǎo),而智能助理具有領(lǐng)域?qū)I(yè)知識(shí)(知識(shí)圖譜)與豐富問(wèn)答經(jīng)驗(yàn)(問(wèn)答歷史數(shù)據(jù)),可以在幾分鐘內(nèi)解決用戶(hù)問(wèn)題和需求,智能助理解決不掉的,再扔給人工客服。

很多場(chǎng)景可能最頻繁的前十個(gè)問(wèn)題已經(jīng)能解決大部分用戶(hù)通用的問(wèn)題,而智能助理的優(yōu)勢(shì)在于可以自動(dòng)化獲取用戶(hù)畫(huà)像、快速讀取海量相關(guān)知識(shí)庫(kù)、通過(guò)多輪對(duì)話(huà)快速給出針對(duì)用戶(hù)需求的個(gè)性化答案。阿里小蜜就是這樣一款著重打造在購(gòu)物這個(gè)細(xì)分場(chǎng)景下的智能助理。

阿里小蜜是阿里在2015年7月發(fā)布的一款人工智能購(gòu)物助理虛擬機(jī)器人,使用入口在手機(jī)淘寶客戶(hù)端【我的淘寶】,基于阿里海量消費(fèi)和商家數(shù)據(jù)來(lái)結(jié)合線(xiàn)上、線(xiàn)下的生活場(chǎng)景需求,以智能+人工的模式提供智能導(dǎo)購(gòu)、服務(wù)、助理的擬人交互業(yè)務(wù)體驗(yàn)。

機(jī)器通過(guò)智能化技術(shù)處理掉絕大部分的簡(jiǎn)單、重復(fù)等可識(shí)別處理的問(wèn)題,對(duì)于解決不了的問(wèn)題則流向人工。

目前阿里小蜜可以在跨終端、多場(chǎng)景領(lǐng)域支持多輪交互、多模式交互(文本、語(yǔ)音和圖像)和問(wèn)題推薦預(yù)測(cè),支持多模型識(shí)別客戶(hù)意圖,通過(guò)結(jié)合上下文語(yǔ)義理解來(lái)給用戶(hù)推薦想要購(gòu)買(mǎi)的產(chǎn)品,以及解決淘寶和支付寶相關(guān)的服務(wù)問(wèn)題。

在這種意義下,阿里小蜜還是側(cè)重定義為淘寶或支付寶的輔助功能,而不是獨(dú)立作為智能助理來(lái)產(chǎn)出價(jià)值。

九、智能助理體驗(yàn)分析

對(duì)人工智能領(lǐng)域的頭部公司而言,AI仍然是未知且需要不斷探索的。不同的公司文化,不同的技術(shù)體系,不同的業(yè)務(wù)結(jié)構(gòu),不同的產(chǎn)業(yè)背景等等,決定了在人工智能布局上的差異,除了時(shí)間上的先后順序,還有對(duì)AI場(chǎng)景理解的不同。

作為智能助手領(lǐng)域的兩大巨頭,Alexa和Google assistant都在英語(yǔ)國(guó)家取得了不俗的成績(jī),但因?yàn)橹悄苤之a(chǎn)品強(qiáng)依賴(lài)于語(yǔ)音識(shí)別和語(yǔ)義理解,中文可以說(shuō)是他們進(jìn)入中國(guó)市場(chǎng)的一個(gè)強(qiáng)壁壘,因?yàn)橹形氖侨澜缱顝?fù)雜的語(yǔ)言之一,沒(méi)有對(duì)中文長(zhǎng)期的研究和數(shù)據(jù)積累,很難達(dá)到用戶(hù)的預(yù)期。

本次主要分析四款面向國(guó)內(nèi)用戶(hù),支持智能手機(jī)終端,主打個(gè)人智能助手場(chǎng)景的產(chǎn)品:微軟小娜、蘋(píng)果Siri、百度度秘、騰訊叮當(dāng)。主要側(cè)重于分析智能性上,因此不對(duì)APP的結(jié)構(gòu)層、框架層和表現(xiàn)層進(jìn)行分析。

首先直接來(lái)看詢(xún)問(wèn)常見(jiàn)問(wèn)題時(shí)四款智能助手的表現(xiàn):

1. 微軟小娜

體驗(yàn)環(huán)境與版本:iOS11.4.1? v2.6.17

先來(lái)看官方幫助所提供的功能導(dǎo)引:

微軟小娜支持文字或語(yǔ)音輸入,但是只有少部分問(wèn)答支持語(yǔ)音輸入時(shí)同樣輸出語(yǔ)音。在較為安靜的環(huán)境下語(yǔ)音識(shí)別基本沒(méi)有差錯(cuò)。

小娜提供的服務(wù)和內(nèi)容基本都是基于必應(yīng)系列產(chǎn)品,強(qiáng)依賴(lài)必應(yīng)搜索引擎,很多時(shí)候無(wú)法直接呈現(xiàn)用戶(hù)需要的服務(wù),而只是單純將在必應(yīng)里的搜索結(jié)果展示給用戶(hù)。

小娜在用戶(hù)一次性問(wèn)兩個(gè)相關(guān)問(wèn)題時(shí)可以拆分回答。

例如詢(xún)問(wèn)“今天天氣怎么樣我需要帶傘嗎”,小娜會(huì)回答“我覺(jué)得沒(méi)有這個(gè)必要,今天的天氣是晴轉(zhuǎn)多云”。

2. 蘋(píng)果Siri

體驗(yàn)版本:iOS11.4.1

首先來(lái)看Siri的官方導(dǎo)引:

Siri主要以語(yǔ)音交互為主,輔助功能里可以開(kāi)啟文本輸入。在較為安靜的環(huán)境下語(yǔ)音識(shí)別基本沒(méi)有差錯(cuò)。語(yǔ)音合成方面中文發(fā)音較之英文發(fā)音要生硬刻板很多。

Siri團(tuán)隊(duì)作為美國(guó)本土的團(tuán)隊(duì),在英文上的語(yǔ)義理解也做的要比中文好很多,而且語(yǔ)言設(shè)置為英文時(shí)可提供的服務(wù)也更多。

舉個(gè)例子,用中文詢(xún)問(wèn)“24的平方是多少”,Siri只會(huì)給出搜索結(jié)果,但是用英文詢(xún)問(wèn)“the square of 24”就會(huì)直接給出答案。

同樣的,用中文詢(xún)問(wèn)“π的平方是多少”,會(huì)識(shí)別為“派的平方是多少”,同時(shí)只能提供搜索結(jié)果。而用英文詢(xún)問(wèn)則會(huì)識(shí)別“the square of pi”,并直接給出答案。

3. 百度度秘

體驗(yàn)環(huán)境與版本:iOS11.4.1? v3.1.2

同樣先來(lái)看看度秘的官方指引:

雖然李彥宏早前多次為度秘站臺(tái),但是在app store里度秘最新上傳的版本已經(jīng)是1年前了,而且很明顯這個(gè)最新的版本也并沒(méi)有適配iPhone x,可以推斷目前在百度的AI版圖里度秘并不是很重要的一款產(chǎn)品。

使用時(shí),在度秘獲取了訪(fǎng)問(wèn)通訊錄權(quán)限的情況下測(cè)試“打電話(huà)給xx”時(shí)(xx為通訊錄中的聯(lián)系人),度秘語(yǔ)音識(shí)別準(zhǔn)確但反饋沒(méi)有找到該聯(lián)系人,只有在直接說(shuō)打電話(huà)給某個(gè)號(hào)碼時(shí)才可以撥出電話(huà)。

度秘在用戶(hù)一次性問(wèn)兩個(gè)相關(guān)問(wèn)題時(shí)不可以拆分回答。例如詢(xún)問(wèn)“今天天氣怎么樣我需要帶傘嗎”,度秘的回答與“今天天氣怎么樣”的回答相同。

4. 騰訊叮當(dāng)

體驗(yàn)環(huán)境與版本:iOS11.4.1? v1.3.2

騰訊叮當(dāng)?shù)墓俜綆椭敢缦拢?/p>

騰訊叮當(dāng)支持文本交互和語(yǔ)音交互,中文狀態(tài)下語(yǔ)音識(shí)別英文的能力較好,它的語(yǔ)音合成效果是四款產(chǎn)品里最自然流暢的,機(jī)械感很弱。

騰訊叮當(dāng)目前基本不支持對(duì)一些手機(jī)基本操作的控制,仔細(xì)研究就會(huì)發(fā)現(xiàn)它不需要獲取通訊錄權(quán)限,所以打電話(huà)發(fā)短信更無(wú)從談起,因?yàn)檫@款產(chǎn)品發(fā)布時(shí)間并不久,可提供的服務(wù)不多,兜底回答出現(xiàn)的概率也比其他產(chǎn)品要高一些。

十、小結(jié)

因?yàn)樗鎸?duì)的用戶(hù)群體不同,用戶(hù)使用習(xí)慣也有很大差別,中外AI頭部企業(yè)在智能助理這一領(lǐng)域發(fā)力方向也都不盡相同。

Google Assistant、Alexa等國(guó)外具有代表性的智能助理,它們不僅在A(yíng)I芯片、自然語(yǔ)言處理、語(yǔ)音識(shí)別、機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺(jué)等技術(shù)方向上取得進(jìn)展,而且在開(kāi)放性和智能設(shè)備未來(lái)生態(tài)的布局上,搶占了先機(jī)。

而國(guó)內(nèi)BAT三家巨頭研發(fā)的智能助理,目前他們的服務(wù)既有重合之處,也有各自的側(cè)重與特色。

百度的度秘在資訊搜索和生活消費(fèi)推薦上略勝一籌,騰訊叮當(dāng)基于海量數(shù)據(jù)和社交基因,它在泛娛樂(lè)上有著不小的優(yōu)勢(shì),而阿里小蜜則在購(gòu)物和商業(yè)鏈接上更有施展之地。

未來(lái)的智能助理將伴隨著智能生態(tài)系統(tǒng)的發(fā)展變得無(wú)處不在,而作為這個(gè)生態(tài)中的重要角色,智能助理將承擔(dān)起協(xié)調(diào)指揮這個(gè)生態(tài)的重任。這意味著,智能助理將成為新的商業(yè)匯聚點(diǎn),也將引起新一輪的智能生態(tài)大洗牌。

 

本文由 @樊帆fan 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載

題圖由作者提供

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 厲害

    來(lái)自江蘇 回復(fù)
专题
35125人已学习22篇文章
从动效设计原则、动效工具、制作方法、标注技巧等全方位解读
专题
16086人已学习12篇文章
有效的团队管理对于一个企业来说十分重要。本专题的文章分享了团队管理的方法。
专题
19124人已学习15篇文章
评论区应该如何设计?本专题的文章提供了评论区设计思路。
专题
15586人已学习14篇文章
在我们的生活中,因为大数据的应用,很多事情变得越来越便利。本专题的文章分享了大数据的应用场景。
专题
19396人已学习13篇文章
本专题的文章分享了从不同维度拆解一款产品或者功能,有利于提升我们对于产品和功能的思考能力。