從鍵盤(pán)打字到觸控屏,再到現(xiàn)在的語(yǔ)音交互和手勢(shì)交互,人工智能技術(shù)的發(fā)展,正在促使人機(jī)交互方式向更加多元化方向變革。
當(dāng)前市場(chǎng)上漸漸出現(xiàn)一種新的人機(jī)交互新技術(shù)——唇語(yǔ)識(shí)別。與語(yǔ)音識(shí)別不同,唇語(yǔ)識(shí)別是基于機(jī)器視覺(jué)與自然語(yǔ)言處理于一體的技術(shù),不用聽(tīng)聲音,僅靠機(jī)器視覺(jué)識(shí)別說(shuō)話人唇部動(dòng)作,就能解讀說(shuō)話者所說(shuō)的內(nèi)容,因此在研發(fā)難度上也比語(yǔ)音識(shí)別大得多。
就在剛剛過(guò)去的第四屆烏鎮(zhèn)互聯(lián)網(wǎng)大會(huì)上,一直專(zhuān)注搜索的搜狗竟然也亮相了唇語(yǔ)識(shí)別這一黑科技。12月14日,搜狗在北京舉行了媒體溝通會(huì),公開(kāi)演示了唇語(yǔ)識(shí)別這項(xiàng)新技術(shù),包括背后的技術(shù)原理、研發(fā)動(dòng)因以及未來(lái)的場(chǎng)景應(yīng)用。
搜狗語(yǔ)音交互中心技術(shù)總監(jiān)陳偉向鈦媒體介紹,得益于搜狗自然語(yǔ)言處理方面的強(qiáng)大優(yōu)勢(shì),搜狗首創(chuàng)了復(fù)雜端到端深度神經(jīng)網(wǎng)絡(luò)技術(shù)進(jìn)行中文唇語(yǔ)序列建模,通過(guò)數(shù)千小時(shí)的真實(shí)唇語(yǔ)數(shù)據(jù)訓(xùn)練,建立了10萬(wàn)詞以上的詞匯表,取得不錯(cuò)的識(shí)別效果。
具體而言,搜狗通過(guò)攝像頭從圖像中連續(xù)識(shí)別出人的唇形,提取說(shuō)話人連續(xù)的口型變化特征,然后將這些唇語(yǔ)特征放入唇語(yǔ)識(shí)別模型進(jìn)行解碼,從唇語(yǔ)文本數(shù)據(jù)到唇語(yǔ)語(yǔ)言模型進(jìn)一步獲取發(fā)音單元,最終輸出文字。
目前,搜狗在非特定人開(kāi)放口語(yǔ)測(cè)試集上,即搜狗唇語(yǔ)識(shí)別系統(tǒng)的通用識(shí)別的準(zhǔn)確率在60%以上,超過(guò)google發(fā)布的英文唇語(yǔ)系統(tǒng)50%以上的準(zhǔn)確率;而在垂直場(chǎng)景下,如車(chē)載、智能家居等場(chǎng)景下已經(jīng)達(dá)到90%的準(zhǔn)確率。
其實(shí)唇語(yǔ)識(shí)別并不神秘。早在2003年,英特爾公司就曾推出一款名叫視聽(tīng)說(shuō)識(shí)別系統(tǒng)的軟件,電腦開(kāi)發(fā)者可以在此基礎(chǔ)上研制讀懂“唇語(yǔ)”的計(jì)算機(jī);而國(guó)外技術(shù)最純熟的谷歌,其DeepMind團(tuán)隊(duì)在2016年使用BBC新聞視頻,對(duì)AI系統(tǒng)進(jìn)行訓(xùn)練,視頻總長(zhǎng)超過(guò)5000小時(shí),然后以當(dāng)年3月到9月的視頻節(jié)目進(jìn)行測(cè)試,唇語(yǔ)識(shí)別正確率達(dá)到了46.8%。
這個(gè)正確率雖然不算高,但實(shí)際上正常人的唇語(yǔ)識(shí)別能力也只在10%左右,一些受過(guò)訓(xùn)練的唇語(yǔ)專(zhuān)家則可以達(dá)到40%左右。可以想見(jiàn),唇語(yǔ)識(shí)別技術(shù)的壁壘之高。
在國(guó)內(nèi),BAT這些互聯(lián)網(wǎng)巨頭雖未涉足這一領(lǐng)域,但也有一些創(chuàng)新公司在唇語(yǔ)識(shí)別技術(shù)方面取得了突破。
今年3月,國(guó)內(nèi)專(zhuān)注于大數(shù)據(jù)可視化的海云數(shù)據(jù)也試水唇語(yǔ)識(shí)別,發(fā)布了其與重慶市公安科研所共同研發(fā)的唇語(yǔ)識(shí)別技術(shù)成果。在研發(fā)階段,海云訓(xùn)練了1萬(wàn)小時(shí)新聞?lì)惞?jié)目,來(lái)判斷嘴型的準(zhǔn)確度和語(yǔ)言的準(zhǔn)確性。有報(bào)道稱,海云數(shù)據(jù)的唇語(yǔ)識(shí)別技術(shù)在中文識(shí)別率已高達(dá)71%,英文識(shí)別率達(dá)到80%。
但陳偉也強(qiáng)調(diào),唇語(yǔ)識(shí)別最大的難點(diǎn)在于泛化性。之所以這一技術(shù)尚未得到普及,很大程度上是識(shí)別率不能做到像語(yǔ)音識(shí)別那樣高,做不到普適性,應(yīng)用的意義也就不大。
從谷歌唇語(yǔ)識(shí)別系統(tǒng)訓(xùn)練來(lái)看,測(cè)試集與訓(xùn)練集其實(shí)是同源的,都來(lái)自廣播電視新聞,而眾所周知這些播音主持人在發(fā)音、吐字、唇形變化等方面都比普通人要標(biāo)準(zhǔn),如果將測(cè)試選擇在普通人時(shí),識(shí)別率應(yīng)該會(huì)更低。
搜狗為了突破唇語(yǔ)識(shí)別的泛化性,一方面通過(guò)各類(lèi)新聞、電視節(jié)目的數(shù)據(jù)進(jìn)行訓(xùn)練,另一方面通過(guò)搜集大量普通人的唇語(yǔ)數(shù)據(jù)進(jìn)行訓(xùn)練,提升了唇語(yǔ)識(shí)別的泛化效果。另外,具體到車(chē)載、智能家居場(chǎng)景時(shí),搜狗團(tuán)隊(duì)又通過(guò)限定場(chǎng)景、限定語(yǔ)句等形式,對(duì)唇語(yǔ)識(shí)別準(zhǔn)確性做了進(jìn)一步優(yōu)化。
因此,在未來(lái)場(chǎng)景落地上,搜狗唇語(yǔ)團(tuán)隊(duì)將關(guān)注兩方面,一方面可以和語(yǔ)音識(shí)別技術(shù)相結(jié)合解決遠(yuǎn)場(chǎng)環(huán)境下的語(yǔ)音問(wèn)題,另一方面唇語(yǔ)識(shí)別作為人機(jī)交互的形式之一,輔助語(yǔ)音交互及圖像識(shí)別,在日常生活、安防、公益等各個(gè)領(lǐng)域?qū)崿F(xiàn)廣泛應(yīng)用。
- 車(chē)載場(chǎng)景下,周?chē)胍暨^(guò)大時(shí)會(huì)對(duì)語(yǔ)音指令產(chǎn)生干擾,通過(guò)唇語(yǔ)識(shí)別技術(shù)則可以規(guī)避干擾,保證人車(chē)交互的準(zhǔn)確性和穩(wěn)定性,日常不便發(fā)聲的公共場(chǎng)所也可以保證說(shuō)話內(nèi)容的私密性。
- 在安防領(lǐng)域,由于目前多數(shù)監(jiān)控只有攝像頭沒(méi)有麥克風(fēng),往往只能看清嘴型卻不知道在說(shuō)什么,給案情分析帶來(lái)很多難題,而唇語(yǔ)識(shí)別技術(shù)可以幫助公安人員獲取重要的講話信息,為公共安全提供有效支持。
- 在公益事業(yè)領(lǐng)域,唇語(yǔ)識(shí)別技術(shù)還能發(fā)揮巨大價(jià)值,幫助先天性聽(tīng)障人群或老年人,讓他們更好地理解和表達(dá)自己。
時(shí)至今日,人工智能的發(fā)展速度已經(jīng)完全超出了我們的想象,那些電影里的炫酷黑科技正在一步步成為現(xiàn)實(shí)出現(xiàn)在我們的生活中。隨著AI技術(shù)的發(fā)展,相信在不遠(yuǎn)的將來(lái),唇語(yǔ)識(shí)別也能像語(yǔ)音識(shí)別、圖像識(shí)別一樣成為我們生活中隨處可見(jiàn)的一部分。(本文首發(fā)鈦媒體,作者/張葉)






快報(bào)
根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論