圖片來源:視覺中國

在鈦媒體在線課“鈦坦白”第47期,我們邀請了三位鈦客分享對于人機(jī)交互方式中的語音交互的看法。本期鈦客之一、奇點(diǎn)機(jī)智聯(lián)合創(chuàng)始人兼CTO林德康,是國際計(jì)算語言學(xué)學(xué)會(huì)會(huì)士(ACL Fellow),前Google研究院高級(jí)管理科學(xué)家(senior staff research scientist),在加入Google之前擔(dān)任加拿大阿爾伯塔大學(xué)計(jì)算機(jī)教授。他在自然語言處理及理解領(lǐng)域總共發(fā)表過90余篇論文,其研究總計(jì)被引用超過14000次,對自然語言解析和詞匯語義做出重要貢獻(xiàn)。

本文節(jié)選自林德康在鈦坦白的分享。如果您還不是鈦媒體Pro用戶,希望查看鈦坦白所有干貨,進(jìn)入鈦坦白九個(gè)專業(yè)群交流,并查看更豐富的專業(yè)數(shù)據(jù)和信息,可點(diǎn)擊:http://www.chcmb.cn/pro 注冊。

以下根據(jù)林德康在鈦坦白的分享實(shí)錄整理:  

大家好,很高興和大家聊聊語音交互這個(gè)話題,我們公司正在做一個(gè)專為Android生態(tài)所打造的應(yīng)用助手,用戶通過語音的方式即可操控手機(jī)應(yīng)用中的各項(xiàng)功能,因此正好有一些心得經(jīng)驗(yàn)可以和大家分享。

語音助手將成為下一代搜索的核心

2016年是人工智能元年,智能語音技術(shù)作為人工智能應(yīng)用最成熟的技術(shù)之一,在智能助手、智能家居、智能車載、智能可穿戴領(lǐng)域有了迅猛發(fā)展。
全球智能語音產(chǎn)業(yè)規(guī)模持續(xù)增長

全球智能語音產(chǎn)業(yè)規(guī)模持續(xù)增長

中國智能語音產(chǎn)業(yè)規(guī)模持續(xù)增長

中國智能語音產(chǎn)業(yè)規(guī)模持續(xù)增長

據(jù)權(quán)威數(shù)據(jù)顯示,2016 年全球智能語音市場規(guī)模達(dá) 82.2億美元,同比增長 32.4%。中國智能語音產(chǎn)業(yè)市場規(guī)模也逐步擴(kuò)大,2016年59.2 億元產(chǎn)業(yè)規(guī)模,同比增長47.1%,預(yù)計(jì)2017年產(chǎn)業(yè)規(guī)模將突破100億,同比增長69.8%,且增速顯著高于全球市場,約占全球市場份額14%。 

人工智能也已被看作未來手機(jī)發(fā)展的重要方向之一,從蘋果iPhone的 Siri 到微軟Windows phone的Cortana,從谷歌Pixel的 Google Assistant到三星S8的 Bixby,從華為Mate 9內(nèi)置的Alexa到HTC U11的DuerOS,現(xiàn)在幾乎每一款旗艦智能手機(jī),都內(nèi)置了一位“虛擬助手”。
語音識(shí)別技術(shù)的進(jìn)步

語音識(shí)別技術(shù)的進(jìn)步

在深度學(xué)習(xí)出現(xiàn)以后,語音識(shí)別從幾乎每一句都有錯(cuò)誤到現(xiàn)在接近人類的水平,可以說有非常大的進(jìn)步。語音助手也不再只是機(jī)械式地與用戶互動(dòng),而是能夠智能化的分析和感知用戶思想?,F(xiàn)在的語音交互,與其他交互方式相比,具有三個(gè)優(yōu)勢:

一是語音交互的速度快。斯坦福有一項(xiàng)研究表明,語音輸入的速度是鍵盤輸入的三倍。

二是語音界面是扁平化的。任何一個(gè)功能都可以依據(jù)指令直接到達(dá)。比如微信里的功能通常需要幾個(gè)甚至十幾個(gè)點(diǎn)擊才能完成,而用語音說一句就行了。

三是不需要學(xué)習(xí)。通常每個(gè)應(yīng)用都是經(jīng)過學(xué)習(xí)以后才會(huì)使用,但使用語音就可以省略學(xué)習(xí)的過程。

據(jù)市場研究公司Fivesight調(diào)查,約有72%的美國用戶已將語音助手作為對搜索引擎的補(bǔ)充,Siri已成為僅次谷歌之后的第二大移動(dòng)“搜索引擎”。市場推動(dòng)下,智能語音助手將成為下一代搜索的核心,以及新生態(tài)的核心。

語音交互+圖形界面是最好的組合

語音交互過程通常由三部分構(gòu)成:第一步,把聲音轉(zhuǎn)成文字(語音識(shí)別);第二步,把文字轉(zhuǎn)換成意圖;第三步,把意圖變成可以執(zhí)行的命令,調(diào)用各應(yīng)用API或網(wǎng)頁來完成指令。也就是說,第三步舍棄了你手機(jī)里的APP和其原有界面,直接在語音助手上集成功能,如打車、外賣等。

那么,對于一個(gè)語音助手開發(fā)者來說,前兩步,比的是AI團(tuán)隊(duì)多強(qiáng)大,第三步,比的是你的BD團(tuán)隊(duì)多強(qiáng)大。

現(xiàn)在的手機(jī)助手一般是用一個(gè)聊天界面跟后臺(tái)服務(wù)對接,谷歌的手機(jī)助手就集成了谷歌里的問答、導(dǎo)航、本地搜索等多種服務(wù)。這個(gè)提供問答功能的系統(tǒng)就是我在谷歌的團(tuán)隊(duì)做的網(wǎng)頁問答系統(tǒng),你還可以問它天氣情況,它顯示的是華氏度,如果你問攝氏度是多少,它就會(huì)把同樣的答案用攝氏度回答出來。

但“對話框+后臺(tái)服務(wù)“也有不盡人意的地方,比如連接后臺(tái)服務(wù)是一個(gè)相當(dāng)復(fù)雜的過程, 通常需要工程師去完成。還有在對話框里重現(xiàn)用戶體驗(yàn)不是一件容易的事情。還經(jīng)常做得不如原生應(yīng)用好。再者語音助手和后臺(tái)服務(wù)的經(jīng)濟(jì)利益可能會(huì)有沖突。比如航班搜索,它只列出了航班和價(jià)格,但是如果需要下單就不在應(yīng)用助手頁面里了。
命令行界面:1d

命令行界面:1d

圖形界面:2d

圖形界面:2d

對話界面:1.5d?

對話界面:1.5d

在從前,命令行界面是很常見的界面,但現(xiàn)在的年輕人也許根本就沒見過,微軟DOS操作系統(tǒng)的命令行界面,因?yàn)橹荒茉谝恍欣镙斎耄晕曳Q它是“一維”的,我們熟悉的圖形界面是“二維”的,而對話框界面退了半步是“1.5維”。

圖形界面具有很多的優(yōu)點(diǎn),比如語音輸入的速度比敲鍵盤要快得多,但是視覺能夠收到的信息要比聽到的信息快得多,所以最好的組合是把語音和圖形界面結(jié)合起來,在圖形界面上增加了一層語音交互,原有的圖形交互不僅可以繼續(xù)使用,在應(yīng)用里的任何地方還可以用語音交互,這樣,就形成了一個(gè)立體“三維”界面。

語音助手“小不點(diǎn)”如何實(shí)現(xiàn)自主學(xué)習(xí)功能?

小不點(diǎn)與常見的手機(jī)助手有兩點(diǎn)主要的不同:

一是小不點(diǎn)不會(huì)將用戶局限在語音助手的對話框里。而 Siri、Google Assistant 等常見的語音助手,都是以應(yīng)用程序界面的形式出現(xiàn),即用戶與助手的交互鎖定在同一個(gè)對話框內(nèi)。

這涉及到用戶體驗(yàn)重構(gòu)的問題。例如,當(dāng)你在攜程 APP 上購買機(jī)票時(shí),可以按照時(shí)間、價(jià)格等因素排序,也可以篩選只考慮某一航空公司的飛機(jī)。但想要在語音助手的對話框內(nèi)實(shí)現(xiàn)這些功能非常困難,然而這些功能又恰好是用戶的需求所在。小不點(diǎn)的操作模式是直接將用戶帶入 APP 頁面,自然利用 APP 已經(jīng)實(shí)現(xiàn)的功能模塊,不需要再對應(yīng)用程序進(jìn)行重構(gòu)。

二是小不點(diǎn)代替用戶手指點(diǎn)擊界面,這繞開了語音助手對接應(yīng)用程序 API 接口時(shí)所遇到的商務(wù)拓展難題。與 Deepsahre 一樣,語音助手也普遍需要一家一家地談合作伙伴。實(shí)際上,用戶用得越多的應(yīng)用,越不愿意給你開 API 。因?yàn)樗恍枰愕牧髁?,而且它也不知道開了 API 之后會(huì)有什么其他的影響。小不點(diǎn)繞開了 API 的限制,想要小不點(diǎn)“學(xué)會(huì)”使用某個(gè) APP ,研發(fā)人員只需錄制這個(gè) APP 相關(guān)功能使用時(shí)的點(diǎn)擊路徑即可。

目前,小不點(diǎn)已經(jīng)“學(xué)會(huì)”一百多個(gè) APP 的使用方法,而這其中只有百度地圖等少數(shù)幾個(gè)應(yīng)用程序開放了允許第三方調(diào)用的 API 接口。有 API 可以調(diào)用的時(shí)候,我們當(dāng)然會(huì)用,因?yàn)?API 的響應(yīng)速度很快。比如百度提供了導(dǎo)航的API,我們就不必用模擬點(diǎn)擊來完成導(dǎo)航任務(wù),而是直接調(diào)用API達(dá)到結(jié)果。

一旦遇到小不點(diǎn)目前還沒有實(shí)現(xiàn)的APP操作,其中的智能學(xué)習(xí)功能則可以發(fā)揮作用。當(dāng)用戶激活學(xué)習(xí)功能后,只需按照平時(shí)的步驟操作,小不點(diǎn)會(huì)自動(dòng)記錄,用戶日后再次下達(dá)指令后,自動(dòng)完成所有操作和跳轉(zhuǎn)。目前,安卓應(yīng)用商店有約 280 萬個(gè)應(yīng)用,團(tuán)隊(duì)無法靠蠻力記錄所有應(yīng)用程序的所有操作路徑。因此,小不點(diǎn)自帶的“學(xué)習(xí)”功能,此時(shí)就派上了用場。 

比如我想查手機(jī)上的流量,小不點(diǎn)幫我做的是在百度上搜索“查流量”,但“小不點(diǎn)”的好處是用戶可以教它從前不會(huì)做或做錯(cuò)的事情,例如先教它查詢流量的過程,再對它說“查詢流量”就可以達(dá)到我的目的了。用戶教給小不點(diǎn)的命令馬上就可以使用,甚至可以分享給別人。我想很多人都體驗(yàn)過給父母做技術(shù)支持是一件相當(dāng)不容易的事情,如果很多人教給小不點(diǎn)同一個(gè)命令,我們就會(huì)把它加到公共庫里,這樣所有人都可以使用,小不點(diǎn)就會(huì)越用越好用,越用越懂你。

教“小不點(diǎn)”查看流量

關(guān)于“小不點(diǎn)”錄制過程的探討

群友A:剛才您教小不點(diǎn)查流量時(shí),“小不點(diǎn)”很快就學(xué)會(huì)了,速度很快,能稍微詳細(xì)一點(diǎn)兒介紹一下它的學(xué)習(xí)機(jī)制/原理嗎? 

林德康:“小不點(diǎn)”是用程序點(diǎn)擊, 所以比人點(diǎn)得快得多。在錄制模式里,用戶每一個(gè)點(diǎn)擊都被我們記下來,然后根據(jù)用戶說的語句進(jìn)行推廣。這樣的話,假如你錄了“打車去西直門”,以后再說“打車去國貿(mào)”小不點(diǎn)也會(huì)做。

群友A:要從用戶的輸入里提煉出一個(gè)核心的命令詞進(jìn)行推廣嗎?比如 “打車去西直門”里的“打車”? 

林德康:大多數(shù)時(shí)候,這事不難。如果用戶說了“西直門”,又把“西直門”填在一個(gè)搜索框里,這多半就是參數(shù)。泛化需要詞向量,查流量的例子其實(shí)不需要參數(shù),所以只要記住用戶語句和操作序列的對應(yīng)就好了。

群友:以后它會(huì)操作"打車去國貿(mào)" 是根據(jù)"國貿(mào)"跟"西直門"在詞庫里是相近詞來判斷的嗎?需不需要也識(shí)別"打車"這個(gè)動(dòng)詞呢?

林德康:“國貿(mào)”和“西直門”是同一類東西,可以通過無監(jiān)督學(xué)習(xí)的辦法得到,它們的詞向量會(huì)很像。“打車”是需要識(shí)別的。

群友B:大部分的命令都需要用戶先錄嗎?

林德康:我們需要“小不點(diǎn)”先能完成很多命令,這樣才會(huì)有人用。希望以后的大部分命令是用戶錄制的。

群友B:很多日常用的命令不是很有重復(fù)性,花很多時(shí)間錄制,只用一次兩次。用戶是否愿意去一個(gè)個(gè)命令去錄呢?

林德康:應(yīng)該只有少部分用戶錄制命令就可以了,因?yàn)橐坏╀浵聛?,所有人都有可能用到?/p>

群友B:因?yàn)槭浅绦?,比人手點(diǎn)擊快得多,會(huì)按人錄入的完整點(diǎn)擊操作嗎?是不是有多余步驟?多占了存儲(chǔ)?

林德康:其他應(yīng)用使用小不點(diǎn)會(huì)占些存儲(chǔ),但是點(diǎn)擊本身并不需要多占存儲(chǔ)。

(本文獨(dú)家首發(fā)鈦媒體,根據(jù)ACL會(huì)士、奇點(diǎn)機(jī)智聯(lián)合創(chuàng)始人林德康在鈦坦白上的分享整理) 

……………………………………………………   

 鈦坦白第48期:透視基層醫(yī)療 

詳情:http://www.chcmb.cn/2709410.html 

本文系作者 葛佳音 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請注明出處、作者和本文鏈接。
本內(nèi)容來源于鈦媒體鈦度號(hào),文章內(nèi)容僅供參考、交流、學(xué)習(xí),不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點(diǎn)和發(fā)現(xiàn),點(diǎn)擊這里投稿 。創(chuàng)業(yè)或融資尋求報(bào)道,點(diǎn)擊這里。

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請綁定手機(jī)號(hào)后發(fā)表評論

登錄后輸入評論內(nèi)容
  • 不過還有很多難關(guān)需要克服,但隨著技術(shù)的發(fā)展,像咪咕靈犀,siri這樣的,未來說不定能改變我們的生活方式。

    回復(fù) 2017.08.01 · via pc

快報(bào)

更多
1

掃描下載App