搜狗地圖總經(jīng)理孔祥來(lái)
鈦媒體注:鈦媒體T-EDGE國(guó)際年度盛典,作為鈦媒體年度最重要、在科技領(lǐng)域最舉足輕重的年度國(guó)際峰會(huì),每一年年末希望能夠?qū)Ξ?dāng)年發(fā)生的和未來(lái)可能發(fā)生的做一些重要盤(pán)點(diǎn)和預(yù)判,同時(shí),搭建一個(gè)平臺(tái)通過(guò)線上線下交流,助力全球前沿創(chuàng)新者的價(jià)值發(fā)現(xiàn)與落地。
12月17日,搜狗地圖總經(jīng)理孔祥來(lái)在鈦媒體T-EDGE國(guó)際年度盛典上分享了搜狗智能副駕這款語(yǔ)音交互產(chǎn)品開(kāi)發(fā)歷程與用戶體驗(yàn),
在孔祥來(lái)看來(lái),目前我們所接觸的所有交互方式中,只有語(yǔ)音才是在車(chē)內(nèi)場(chǎng)景中最合理的交互方式,因?yàn)楫?dāng)你在開(kāi)車(chē)的時(shí)候,你的手、眼都屬于被占用的一個(gè)狀態(tài),想要安全駕駛就不能因此分心。
目前的汽車(chē)廠商與導(dǎo)航供應(yīng)商在車(chē)內(nèi)都有類(lèi)似的解決方案,但是經(jīng)過(guò)實(shí)際體驗(yàn)它們的產(chǎn)品并不能完全解決用戶痛點(diǎn),搜狗智能副駕的研發(fā)初衷正是圍繞這些尚未被解決的痛點(diǎn)進(jìn)行的。
傳統(tǒng)模式的語(yǔ)音基本上是這樣一個(gè)漏斗的模型。第一級(jí):語(yǔ)音識(shí)別率。第二級(jí):受限于語(yǔ)意理解的正確率。第三級(jí):受限于搜索的正確率。
搜狗智能副駕所強(qiáng)調(diào)的語(yǔ)音交互,并不是簡(jiǎn)單地用語(yǔ)音識(shí)別把用戶說(shuō)的話簡(jiǎn)單翻譯過(guò)來(lái)就結(jié)束了,而是要通過(guò)后續(xù)一系列的語(yǔ)意、地圖層面做一些分析工作,最終給用戶一個(gè)正確的反饋結(jié)果。
今天我想要介紹的搜狗智能副駕,這里面有相當(dāng)一部分技術(shù)其實(shí)跟同傳也是相關(guān)的,也就是搜狗語(yǔ)音技術(shù),搜狗在過(guò)去一年以來(lái)在AI領(lǐng)域里面所做的嘗試,即把語(yǔ)音識(shí)別技術(shù)、語(yǔ)意理解技術(shù)和地圖導(dǎo)航技術(shù)結(jié)合起來(lái),在汽車(chē)場(chǎng)景中向用戶提供內(nèi)容解決方案。
在介紹“搜狗智能副駕”之前,先給大家看一下,我們所調(diào)查到的用戶在車(chē)內(nèi)的一個(gè)需求的情況?,F(xiàn)在我們發(fā)現(xiàn),用戶在車(chē)內(nèi)信息交互的需求,其實(shí)主要就是兩類(lèi),一類(lèi)是駕駛相關(guān)的,比如說(shuō)導(dǎo)航、路況、沿途信息等,大概要占到92%。還有一類(lèi)是互聯(lián)網(wǎng)相關(guān)的,比如說(shuō)聽(tīng)音樂(lè)、廣播、新聞、聊微信等這些東西,用戶在車(chē)內(nèi)的信息交互需求,占比最高的主要就是這兩類(lèi)。
目前,用戶的這種需求是怎么被滿足的呢?在汽車(chē)場(chǎng)景里面,凡是用戶想聽(tīng)歌、打電話的時(shí)候,汽車(chē)制造商都已經(jīng)為用戶提供了一些解決方案,但是以前主要都是基于物理的這種按鍵或旋紐,很不方便,所以我們也注意到在最近的一兩年里邊,汽車(chē)制造商已經(jīng)開(kāi)始把這種語(yǔ)音識(shí)別的技術(shù)引入到車(chē)內(nèi)來(lái)。
語(yǔ)音交互毫無(wú)疑問(wèn)是在車(chē)?yán)锩嬉粋€(gè)最合理的一種交互方式,因?yàn)楫吘鼓阍陂_(kāi)車(chē)的時(shí)候,你的手跟、眼都是屬于被占用的一個(gè)狀態(tài)。
汽車(chē)廠商做出來(lái)的語(yǔ)音交互主要問(wèn)題就是聽(tīng)不懂,你跟系統(tǒng)絮絮叨叨說(shuō)了半天,系統(tǒng)只按它自己的邏輯去解釋?zhuān)闳绻话此姆椒▉?lái)輸入指令的話,它就拒絕配合你。
現(xiàn)在除了汽車(chē)廠商在提供這種語(yǔ)音交互的這種解決方案之外,互聯(lián)網(wǎng)廠商不是也在做這些事情嗎?有很多的互聯(lián)網(wǎng)廠商現(xiàn)在已經(jīng)開(kāi)始在自己的車(chē)內(nèi)的場(chǎng)景里,比如導(dǎo)航功能中開(kāi)始植入這種語(yǔ)音交互的能力,互聯(lián)網(wǎng)廠商目前做得怎么樣?
導(dǎo)航供應(yīng)商所提供的語(yǔ)音交互的表現(xiàn)主要所反應(yīng)出來(lái)的問(wèn)題其實(shí)就是說(shuō)不清,我們知道語(yǔ)音交互它是個(gè)雙向的概念,不光是你說(shuō)的東西機(jī)器能聽(tīng)懂,同時(shí)機(jī)器也應(yīng)該說(shuō)人能聽(tīng)懂的東西,不能當(dāng)人說(shuō)完了之后,機(jī)器只管把結(jié)果給你列出來(lái),然后讓你再去重新選擇和交互,如果是這樣一種交互方式的話,在車(chē)內(nèi)毫無(wú)疑問(wèn)是非常不安全的。
所以,我們總結(jié)下來(lái)就是,就目前來(lái)看,用戶體驗(yàn)到的語(yǔ)音交互,要么就是聽(tīng)不懂,要不就是說(shuō)不清,用戶真正需要的語(yǔ)音交互是什么呢?它是需要一個(gè)自然的語(yǔ)言對(duì)話,能夠聽(tīng)懂用戶想要什么,能夠像人一樣地去講出這個(gè)答案。下面我們看一下,我們認(rèn)為真正的語(yǔ)音交互應(yīng)該是什么樣的。
這就是我們想為大家推出的搜狗智能副駕的一個(gè)初衷,我們希望真正能在車(chē)內(nèi),用戶是以這樣一種交互方式去跟系統(tǒng)打交道的,而我們這個(gè)產(chǎn)品實(shí)際已經(jīng)在7月初的時(shí)候發(fā)布了,現(xiàn)在安卓和iPhone手機(jī)都可以下載搜狗地圖,搜狗地圖里面會(huì)有一個(gè)模式叫做智能副駕,進(jìn)到這個(gè)模式之后就可以跟汪仔進(jìn)行語(yǔ)音交互,你可以說(shuō)出你的需求是什么,它對(duì)話的方式大概就是這樣的。
你先喚醒它,比如“你好汪仔”,他就會(huì)問(wèn)你要去哪兒,你說(shuō)去奧森,它知道奧森是有南門(mén)跟北門(mén)的,于是乎它會(huì)說(shuō)奧森有兩個(gè)你去哪一個(gè),是南門(mén)還是北門(mén)。如果你說(shuō)南門(mén),最終它就會(huì)找到奧森的南門(mén)并且自動(dòng)為你啟動(dòng)導(dǎo)航。
大家不要小看這個(gè)簡(jiǎn)單的過(guò)程,實(shí)際上這個(gè)過(guò)程背后是有非常復(fù)雜的技術(shù)的支撐,才能保證有這樣一個(gè)良好的體驗(yàn)的。在汽車(chē)上的一個(gè)智能助手,如果想做到一個(gè)良好的語(yǔ)音交互體驗(yàn)的話,我們認(rèn)為有4點(diǎn)需要做到:
第一個(gè),聽(tīng)得對(duì)。這是最基本的,當(dāng)用戶說(shuō)出一段話后能夠正確地轉(zhuǎn)譯成文字。
第二個(gè),聽(tīng)得懂。就是你光聽(tīng)對(duì)了不行,你得知道他想表達(dá)什么,什么意思。
第三個(gè),能夠說(shuō)。幫用戶搜索到結(jié)果反饋后,需要正確地把它表達(dá)出來(lái)。
第四個(gè),要有相關(guān)非常豐富的知識(shí),否則無(wú)法解決想要的問(wèn)題。
我們來(lái)看一個(gè)實(shí)際的例子,比如說(shuō)用戶對(duì)系統(tǒng)說(shuō)要去某個(gè)地方,系統(tǒng)會(huì)識(shí)別到很多的可能性,進(jìn)入到語(yǔ)意分析環(huán)節(jié),當(dāng)我們把地圖引入進(jìn)來(lái)的時(shí)候,決策后會(huì)發(fā)現(xiàn)某個(gè)地方的概率更高,所以最終分析下來(lái)用戶應(yīng)該想去這個(gè)地方。
我說(shuō)這個(gè)例子是想跟大家說(shuō),在聽(tīng)得對(duì)這個(gè)環(huán)節(jié),不是簡(jiǎn)單地用語(yǔ)音識(shí)別把用戶說(shuō)的話簡(jiǎn)單翻譯過(guò)來(lái)就結(jié)束了,而是說(shuō)你要通過(guò)后續(xù)的一系列的像語(yǔ)意、地圖層面做的一些分析的工作,然后你才能知道用戶說(shuō)的哪一個(gè)是對(duì)的。通過(guò)這個(gè)例子就能發(fā)現(xiàn),我們通過(guò)語(yǔ)意和地圖的糾錯(cuò),使最終系統(tǒng)選出了正確的目的地。
像我們剛才在視頻里看到的一些例子,比如你想在路上順便加油、吃麥當(dāng)勞等行為,目前在搜狗一個(gè)龐大的語(yǔ)意網(wǎng)絡(luò)里面,已經(jīng)能夠聽(tīng)懂10萬(wàn)個(gè)類(lèi)似像這樣的語(yǔ)意路徑,也就說(shuō)你表達(dá)一種需求,你可能有不同的說(shuō)法,在語(yǔ)意分析引擎這邊,它能夠兼容很多種說(shuō)法,現(xiàn)在我們整個(gè)的對(duì)話路徑已經(jīng)超過(guò)了10萬(wàn)個(gè)。
接下來(lái)我們來(lái)看看,比如說(shuō)在傳統(tǒng)語(yǔ)音交互里面,你說(shuō)你要去首都機(jī)場(chǎng)的時(shí)候,它會(huì)說(shuō)我給你找到5個(gè)目的地,我們的做法是直接精簡(jiǎn)成你要去哪個(gè)航站樓或者航班號(hào)(這樣只有15個(gè)字),這種方式就是用戶所能接受的非常自然的語(yǔ)音交互。
所有的這些能夠聽(tīng)得懂,是建立在一個(gè)非常重要的基礎(chǔ)上,我們對(duì)地圖數(shù)據(jù)做了非常重要的重構(gòu),我們把這個(gè)稱(chēng)之為主子關(guān)系,我們大概能夠挖掘出500多萬(wàn)的主子關(guān)系。
除了主子關(guān)系還有所謂的容器關(guān)系(比如說(shuō)搜狗公司在搜狗網(wǎng)絡(luò)大廈里面),還有很多的商圈地片,當(dāng)你說(shuō)你要去大鐘寺的時(shí)候,不是簡(jiǎn)單給你導(dǎo)到大鐘寺地鐵站,而是問(wèn)你要去大鐘寺的什么地方,這些都是我們定義的叫做地圖知識(shí)。
除了地圖知識(shí)之外還有很多跨域的知識(shí),像航班、洗車(chē)、車(chē)站等都是我們所謂的有知識(shí)的范疇。傳統(tǒng)模式的語(yǔ)音基本上是這樣一個(gè)漏斗的模型:
第一級(jí):語(yǔ)音識(shí)別率。
第二級(jí):受限于語(yǔ)意理解的正確率。
第三級(jí):受限于搜索的正確率。
最終一個(gè)漏斗剩下來(lái),會(huì)話的成功率只有68.4%,大家可能會(huì)疑問(wèn)怎么第一個(gè)環(huán)節(jié)語(yǔ)音識(shí)別正確率只有80%,這是因?yàn)楝F(xiàn)在有很多的語(yǔ)音的識(shí)別雖然都說(shuō)自己的所謂字正確率能夠達(dá)到90%幾,但是你一旦把它變成一個(gè)句子的話,馬上迅速地識(shí)別率就會(huì)下降下來(lái)。
而搜狗這邊的做法是,每一級(jí)我們都會(huì)有一個(gè)糾錯(cuò),都會(huì)根據(jù)后面的結(jié)果對(duì)前面進(jìn)行反向糾錯(cuò)的過(guò)程。我們最后做下來(lái)的話,會(huì)話成功率能夠做到90%,這個(gè)都是搜狗的自有技術(shù)。
搜狗這次所提供的智能副駕,核心關(guān)鍵點(diǎn)是在于所有的東西全部都是自己的核心技術(shù),能夠確保有最佳的用戶體驗(yàn),屬于一個(gè)技術(shù)與體驗(yàn)的閉環(huán)。
快報(bào)
根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論