今年互聯(lián)網女皇的報告發(fā)布了,相比去年用了10%的篇幅大談語音交互,今年的報告對于語音交互似乎冷靜了許多。不過我們仍然能看到,報告指出,來自Google Assistant的數(shù)據顯示,接近70%的請求都是自然語言、對話方式發(fā)出的,機器學習已經驅動Google的語音識別率從2013年的不足80%,提升至如今的95%(國內大部分平臺公布的識別率是97%)。
我們可以看一看去年的報告,其中提到,快速簡便、個性化的語音交互很可能代替人們的雙手,成為人機交換的新模式。解放了雙手和視覺,能將“在線”這一概念延伸的更遠。
可讓人困惑的是,語音交互應用,尤其是中文語音交互真的離我們那么近了嗎?
面對Siri,讓她來段beatbox之外,好像也沒有什么好說的??吹綀蟾嬷械臄?shù)據后,我破天荒的長按home鍵,看到屏幕上那行“請問需要什么幫助”后竟然沒由來的感到一絲尷尬,這感覺和我面對不熟的親戚時搜腸刮肚找話題的感覺一樣。
我知道語音助手們能幫我做很多事,搜索、打電話、發(fā)信息、叫外賣……可我就是開不了那個口。
我相信有很多人跟我一樣,除了在不方便聽微信語音時點個長按識別或者開車時指揮一下XX地圖之外,寧愿死守著手指與鍵盤老一套的交互方式。這究竟是怎么一回事?
語音交互真有這么厲害?
首先我們來看看,語音交互已經走到哪一地步了。
簡單來說,語音交互的關鍵在于兩點,一個是語音識別準確率,另一個則是自然語言處理(你經常能看到的NLP)水平。
語音識別將聲音轉換成波形文件,對聲音進行分幀,再從每一幀中提取包含內容信息的多維向量,這一過程就是聲學特征提取。提取特征后再將特征組成音素(單詞發(fā)音的構成,類似于音標,對應漢語則是聲母、韻母)。
而有了音素之后,還需要大量語音數(shù)據,對應聲紋幀和聲學特征利用隱馬爾可夫模型、Viterbi算法考慮語音與音素的匹配程度、音素之間轉換的概率再加上可以解決多音字問題的語音模型,最終形成一個有足夠多節(jié)點的網絡,識別語音時,只需要找到與聲音最匹配的路徑就好。
計算能力加強、數(shù)據量增大,加上深層學習神經網絡將計算機視覺應用于語音波形文件之上,語音識別準確率提高幾乎是必然的結果。方言、多音字、語音語速個性化這些問題也正在被一一解決中,例如科大訊飛就表示自己可以利用“基于說話人編碼和i-vector的深度神經網絡自適應算法,以完全不需要人工干預的方式率先在產品中解決了深度學習框架下的說話人自適應問題。”
而NLP則是一個大話題,和語音交互有關的自然是其中語音處理的部分。從理解到生成反饋,其中涉及到大量有關機器學習的復雜問題,這里就不再贅述。我們只需要知道的是,計算能力、數(shù)據量、機器學習三個關鍵指標的發(fā)展,已經極大的提高了語音交互的應用性。吳恩達曾經說過,“人們很快會習慣與機器流暢交流的時光,而忘記以前是如何與機器交互的”,如此可以看出,語音交互似乎已經可以代替如今人機交互中的很大一部分了。
語音交互應用范疇:先讓速記下崗
語音交互已經在我們生活中的哪些場景開始應用了?目前來說,與其稱之為“徹底的改變交互”,不如說“更多的代替人工”。最典型的例子就是在很多發(fā)布會上看到語音識別速記,其準確率已經和人工齊平甚至超過了人工。
語料庫累積不夠、識別能力和理解能力有限,在這些大前提下,語音交互應用于有特定場景的服務系統(tǒng)似乎更為實際。例如客服、人工服務窗口等等,從其業(yè)務范疇制定語音交互系統(tǒng)或許可行,如同線上智能客服。
除了單純的識別文字,語音交互更大的價值在于把聲音中更豐富的內容傳遞給機器。旋律、語種、情緒還有最關鍵的聲紋,這些都是文字中無法體現(xiàn)的。如何挖掘這些信息的價值,語音這個不算新鮮的交互方式的溝通密度達到一個新的維度,這些才是語音交互的革命性所在。相比之下,讓Siri幫你找個加油站,已經是語音交互最最淺層的應用了。
可我還是覺得和Siri說話好尷尬
那么回到最初的問題,面對語音交互我們?yōu)槭裁撮_不了口?
這一點和我們與整個物理世界交互的方式有關。從原始人時期開始,我們想挪動石塊就會伸手,想召喚朋友就呼喊。從一開始,我們和物體的交互方式就是動手,而和生物的交互方式則是語言。當我們和非人甚至非生命體用語音交互時,我們心中常常默認TA是有“人性”的,比如寵物、植物等等,古代艷情小說里也常寫到,書生日夜與畫中美人交談,最終畫成精幻做人形。
后來進入了機器時代,雖然機械已經能代替我們做很多事,可我們和機械的交互依舊是物理式的。包括如今通過終端操作移動互聯(lián)網,雖然只是手指,但還是物理層面。甚至到傳說中吹氣指揮行動的呼吸控制型輪椅,但凡不是語音交互,人們的接受度都不低。
而互聯(lián)網的出現(xiàn)更是把人與生命體之間原有的方式極大的改變了,不用說話,以物理方式(打字)也能進行交流,甚至給彼此留出了更多斟詞酌句的時間,說錯話了可以撤回,還能用表情包斗圖呢??纯创蠹沂窃陲埦稚险f的話多還是微信群里斗的圖多,很快我們就能知道計算機對生物之間交互的方式改變了多少。
而到了語音交互,則是徹底改變了我們和物理世界的交互模式,更考驗著我們對于“人性”的固執(zhí)認識。尤其是在被給予了很多希望的物聯(lián)網領域,想象一下,如果你回到家不是用手去摸開關,而是在空蕩蕩的房間里說一聲“開燈”,這畫面是不是有點詭異?同理,做語音助手的都喜歡給自己起個人一樣的名字,目的就是為了增強人性、消除用戶的不適感。
對于人類這種被計算機調教的越來越依賴物理交互的生物來說,將語音交互帶入生活簡直是在開生活習慣的倒車,忍不住要說一聲好別扭。
或許在語音交互普及方面,我們除了要克服技術方面的難題,更多的還要克服我們自己。
(彩蛋:打開百度圖片,在搜索框中輸入siri,不要點搜索,看看默認結果第一個是什么,回來告訴我你怕不怕)






快報
根據《網絡安全法》實名制要求,請綁定手機號后發(fā)表評論
舉個栗子,就好像電子書剛推出時看的不適應,可是當真的獲得了便利的話,就不會這么想了。例如現(xiàn)在的靈犀,siri這樣的語音助手等真的熟悉后,用得還是蠻順手的。
文章里已經提到,“做語音助手的都喜歡給自己起個人一樣的名字,目的就是為了增強人性、消除用戶的不適感?!保绱酥皇且粋€陌生助理到老朋友(?)的過程,更多的是時間問題,并不必盯著“尷尬”談。