過(guò)去三個(gè)月,在語(yǔ)音識(shí)別領(lǐng)域有幾個(gè)大新聞:一個(gè)是今年10月,美國(guó)微軟雷德蒙研究院在電話語(yǔ)音識(shí)別的標(biāo)準(zhǔn)庫(kù)Switchboard上報(bào)道達(dá)到5.9%的錯(cuò)誤率,我們要知道,在這個(gè)庫(kù)上人類也只能達(dá)到大概5.9%,而機(jī)器的性能已經(jīng)和人類基本達(dá)到了持平;第二個(gè)新聞是在今年9月,也就是國(guó)際語(yǔ)音通信聯(lián)合會(huì)的最后一天報(bào)道的CHIME4國(guó)際多通道語(yǔ)音分離和識(shí)別大賽,你可以簡(jiǎn)單認(rèn)為這是一個(gè)在限定詞表和場(chǎng)景下的帶噪的語(yǔ)音識(shí)別挑戰(zhàn)賽,最好的系統(tǒng)性能報(bào)道達(dá)到了將近2%的錯(cuò)誤率;第三個(gè)新聞可能大家更關(guān)心,是關(guān)于中文的,在剛剛過(guò)去的兩周,百度、搜狗、訊飛進(jìn)行了連續(xù)三場(chǎng)的發(fā)布會(huì),他們各家都展示了語(yǔ)音交互相關(guān)的一些系統(tǒng),并且有趣的是,他們均表示通用領(lǐng)域下的識(shí)別性能達(dá)到97%。

看到這里,很多聽(tīng)眾可能會(huì)問(wèn),語(yǔ)音識(shí)別的性能已經(jīng)如此之高,對(duì)它進(jìn)行研究還有價(jià)值嗎?包括我自己的學(xué)生也會(huì)問(wèn)我,錢老師,語(yǔ)音識(shí)別性能已經(jīng)做得如此好了,我們還需要進(jìn)一步研究嗎?我們做這個(gè)課題還能畢業(yè)嗎?

那我想問(wèn)大家的是,在垂直應(yīng)用方向,語(yǔ)音識(shí)別的的難題真的解決了嗎?這里我將以上三個(gè)big news背后的語(yǔ)音識(shí)別系統(tǒng)應(yīng)用到的主要的技術(shù)羅列如下:

將以上三個(gè)系統(tǒng)背后的技術(shù)應(yīng)用到我們真實(shí)的產(chǎn)品中,比如這里所列的apple的siri、google的google now、微軟的cortana助手、亞馬遜的echo,性能優(yōu)會(huì)怎么樣?我可以告訴大家,這里所列的很多技術(shù)都不能很好地工作。這是因?yàn)?strong>以上三個(gè)系統(tǒng)的相關(guān)技術(shù)都是針對(duì)特定的任務(wù)以及在特定的環(huán)境下進(jìn)行過(guò)度調(diào)優(yōu)的。

我們來(lái)看一個(gè)視頻,看看現(xiàn)實(shí)生活中的語(yǔ)音識(shí)別到底是怎么樣的?

我們可以看到,即使是一個(gè)研究比較成熟的英文的命令詞識(shí)別系統(tǒng),給它只要添加一點(diǎn)點(diǎn)的麻煩,比如用蘇格蘭口音的英語(yǔ),它的性能就會(huì)急速的下降。所以,在這些非配合式的語(yǔ)音交互方面,語(yǔ)音識(shí)別的性能遠(yuǎn)遠(yuǎn)沒(méi)有滿足我們的要求。所謂的配合式,比如說(shuō)要求你說(shuō)普通話,要求你拿手持麥克風(fēng)等等,我們要是沒(méi)有這些條件,讓你一個(gè)用戶隨便的進(jìn)行一個(gè)自然語(yǔ)言的交流,它的系統(tǒng)能照樣保持魯棒性嗎?所以,語(yǔ)音識(shí)別的路還很長(zhǎng)。

傳統(tǒng)語(yǔ)音識(shí)別如何實(shí)現(xiàn)?

語(yǔ)音識(shí)別是對(duì)語(yǔ)音內(nèi)容進(jìn)行提取的一把金鑰匙,它的研究可以追溯到半個(gè)世紀(jì)以前。在本世紀(jì)初,基于語(yǔ)音識(shí)別的一些產(chǎn)品已經(jīng)開(kāi)始問(wèn)世,最有代表性的是在2000年左右,美軍用于伊拉克戰(zhàn)場(chǎng)的語(yǔ)音翻譯機(jī)。2011年apple在iphone4s上推出的siri語(yǔ)音助手,之后包括微軟、谷歌、亞馬遜,以及國(guó)內(nèi)的百度、訊飛、思必馳等等也推出了各自基于語(yǔ)音交互的產(chǎn)品。國(guó)內(nèi)外的研究機(jī)構(gòu)很多,包括國(guó)外的微軟、谷歌、IBM、亞馬遜,以及國(guó)內(nèi)的百度、訊飛、思必馳等等。學(xué)術(shù)界就更多了,包括老牌的劍橋、MIT、JHU,以及國(guó)內(nèi)的清華大學(xué)、中國(guó)科大、上海交大等等。

語(yǔ)音識(shí)別歷來(lái)是人工智能和機(jī)器學(xué)習(xí)中的十大經(jīng)典難題之一,它的難點(diǎn)可以歸結(jié)為三個(gè)不確定性——說(shuō)話人、環(huán)境、設(shè)備。說(shuō)話人方面,我們不同的人有不同的口音,來(lái)自不同的方言區(qū),說(shuō)話的時(shí)候又有不同的方式,同時(shí)我們?cè)谡f(shuō)話的時(shí)候運(yùn)用不同的情感;我們真實(shí)的環(huán)境是非常復(fù)雜的,包括各種各樣的噪聲,包括汽車?yán)嚷?、飛機(jī)的噪聲、馬路上人的聲音,還有一些會(huì)場(chǎng)的回聲等等;設(shè)備方面,我們可以用手持麥克風(fēng)、領(lǐng)夾麥克風(fēng)、耳戴麥克風(fēng)、近場(chǎng)遠(yuǎn)場(chǎng)的麥克風(fēng)等等。此外在真實(shí)的實(shí)際應(yīng)用場(chǎng)景下,往往是這三個(gè)因素疊加在一起的,使得整個(gè)的影響變得更加的復(fù)雜,所以如何設(shè)計(jì)一套魯棒的性能好的語(yǔ)音識(shí)別系統(tǒng),來(lái)很好的處理這些不確定性,也是非常具有挑戰(zhàn)性的。

統(tǒng)計(jì)語(yǔ)音識(shí)別,如果從數(shù)學(xué)上來(lái)定義,可以歸結(jié)為如下圖的概率公式。這里的P(W|O)給定你觀測(cè)到的語(yǔ)音,來(lái)得到最大的詞序列。通過(guò)公式展開(kāi),這個(gè)概率可以歸為兩個(gè)概率,也就是P(O|W)和P(W),對(duì)應(yīng)到我們語(yǔ)音識(shí)別中的聲學(xué)模型和語(yǔ)言模型。當(dāng)然這個(gè)概率可以進(jìn)一步的分解,分解成如下的四個(gè)概率,這四個(gè)概率在語(yǔ)音識(shí)別系統(tǒng)的設(shè)計(jì)上也對(duì)應(yīng)到如下框圖中的四個(gè)模塊,其中P(A|O)是前端語(yǔ)音信號(hào)處理模塊,P(O|L)是聲學(xué)模型模塊,P(L|W)的字典模塊,P(W)是語(yǔ)言模型。在這四個(gè)模塊下,通過(guò)一個(gè)解碼的過(guò)程得到最終的語(yǔ)音識(shí)別結(jié)果。

下面我們來(lái)說(shuō)說(shuō)四個(gè)概率模型:

第一個(gè)概率模型是特征提取P(A|O)。特征提取是所有的模式識(shí)別問(wèn)題的第一步,如何從一個(gè)原始的信號(hào)中提取具有更具有鑒別性、區(qū)分性的特征是非常關(guān)鍵的,原始的語(yǔ)音模型信號(hào)冗余度比較大,所以我們必須對(duì)它進(jìn)行特征的抽取。一旦特征提取的模式確定下來(lái)之后,其實(shí)這個(gè)概率模型我們也可以簡(jiǎn)單的將它理解成一個(gè)確定化的模型。

第二個(gè)概率模型是聲學(xué)模型P(O|L),它可以描述不同聲音之間的各種不同特性,是語(yǔ)音識(shí)別四個(gè)模塊中最關(guān)鍵的技術(shù)之一。據(jù)我所知,大部分公司中的語(yǔ)音組以及研究機(jī)構(gòu)的語(yǔ)音組聲學(xué)模型的小組肯定是所有的team中最大的。這也可以看到它的重要性,概率模型P(O|L)用于刻劃不同語(yǔ)音單元之間的特性,比如說(shuō)音素、音節(jié)、詞字等等,在語(yǔ)音識(shí)別發(fā)展的過(guò)去二三十年,HMM模型被廣泛的采用,并占據(jù)統(tǒng)治地位。

第三個(gè)概率模型是字典模型P(L|W)。字典模型為聲學(xué)模型以及后面要介紹的語(yǔ)言模型之間構(gòu)建了一個(gè)橋梁,它在詞和聲學(xué)單元之間定義了一個(gè)映射,它可以是一個(gè)確定化的模型,也可以是一個(gè)概率模型,舉一個(gè)簡(jiǎn)單的例子,tomato我們可以有兩種發(fā)音,一種是英式,一種是美式,如果假設(shè)我們現(xiàn)在是在美國(guó),那我們可以很有理由的相信,現(xiàn)在使用tomato的概率比tomato高,所以我們將tomato賦予概率5.55,tomato概率賦予5.45。

第四個(gè)概率模型是語(yǔ)言模型P(W)。語(yǔ)言模型是在給定歷史的情況下預(yù)測(cè)下一個(gè)詞的概率,它可以很好的引導(dǎo)搜索算法,消除聲學(xué)單元之間的混淆性,特別是那些聲學(xué)層相似的單元。舉的一個(gè)例子,great wine 和grey twine如果沒(méi)有語(yǔ)言模型,在純聲學(xué)音素層面,把這兩個(gè)字串寫成兩個(gè)音素串是完全一模一樣的,所以在這種情況下,我們僅靠聲學(xué)去區(qū)分是不可行的,在這種情況下語(yǔ)言模型就變得很重要,你想第一個(gè)組合Great wine是一種正常的搭配,grey twine第二種組合是不會(huì)存在的。

語(yǔ)言模型的具體的應(yīng)用有很多種,包括之前的那種上下文自由語(yǔ)法,你可以簡(jiǎn)單認(rèn)為他是一種特殊的比較簡(jiǎn)單的語(yǔ)言模型,到后來(lái)過(guò)去的二三十年中一直占據(jù)統(tǒng)治地位的N-gram語(yǔ)言模型,以及在近幾年比較火的基于深度學(xué)習(xí)方法,基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型,但是由于一些應(yīng)用上的局限性,據(jù)我所知目前在大部分公司或者是研究組性能最好的商用的語(yǔ)音識(shí)別系統(tǒng)采用的語(yǔ)言模型還是N-gram的語(yǔ)言模型。

在這四個(gè)概率模型建模的基礎(chǔ)上,我們可以在一個(gè)龐大的搜索網(wǎng)絡(luò)上進(jìn)行搜索和解碼,下圖是一個(gè)簡(jiǎn)單搜索網(wǎng)絡(luò)的示意。當(dāng)然我們?cè)趯?shí)際的應(yīng)用中,搜索網(wǎng)絡(luò)要比這個(gè)復(fù)雜成千上萬(wàn)倍,在這四個(gè)概率的引導(dǎo)下,我們通過(guò)我們的最優(yōu)化的方法將最后的識(shí)別結(jié)果給找出來(lái),根據(jù)相關(guān)算法的不同可以分為如下的種類,包括動(dòng)態(tài)的、靜態(tài)的解碼器,以及深度優(yōu)先或者廣度優(yōu)先,以及單便利和多便利解碼器等等,目前大部分商用系統(tǒng)采用的是靜態(tài)的、廣度優(yōu)先的、多便利解碼算法。

到這里我已經(jīng)把傳統(tǒng)語(yǔ)音識(shí)別的幾個(gè)重要模塊給介紹完了,當(dāng)然每個(gè)模塊其實(shí)就是一個(gè)很大的課題,可以做很多的研究。

基于深度學(xué)習(xí)的語(yǔ)音識(shí)別

傳統(tǒng)的語(yǔ)音識(shí)別需要經(jīng)過(guò)前端的信號(hào)處理、特征特區(qū)、聲學(xué)模型、語(yǔ)言模型等等各個(gè)模塊的優(yōu)化,來(lái)實(shí)現(xiàn)整個(gè)系統(tǒng)的識(shí)別。深度學(xué)習(xí)出來(lái)以后主要做了哪些工作呢?

下圖是基于深度學(xué)習(xí)的第一代的語(yǔ)音識(shí)別系統(tǒng),我們可以看到,它是將傳統(tǒng)的特征特區(qū)模塊和聲學(xué)建模模塊完成了我們這里的DNN這部分,它將傳統(tǒng)的聲學(xué)模型中基于淺層的高斯混合模型替換成了我們現(xiàn)在的深度神經(jīng)網(wǎng)絡(luò)模型,通過(guò)深度神經(jīng)網(wǎng)絡(luò)模型的多層的非線性建模能力直接預(yù)測(cè)狀態(tài)之間的分布函數(shù),同時(shí)他不需要像傳統(tǒng)方法一樣進(jìn)行基于人工的細(xì)致調(diào)節(jié)的特征的特區(qū),他通過(guò)自身的深度模型的特征引擎能力,就可以從比較原始的語(yǔ)音信號(hào)中提取中比較具有鑒別能力的特征。

語(yǔ)音識(shí)別是深度學(xué)習(xí)方法第一個(gè)成功的任務(wù),下圖我們列出了在2011年以后,深度學(xué)習(xí)方法提出來(lái)以后,包括微軟、谷歌,IBM,在各個(gè)語(yǔ)音識(shí)別任務(wù)上的性能對(duì)比,包括電話信道、廣播信道,谷歌的移動(dòng)信道包括像Yoube這種復(fù)雜的語(yǔ)音數(shù)據(jù)上,中間的那列紅色的就是基于深度學(xué)習(xí)方法之后的詞的錯(cuò)誤率,最右邊那列是傳統(tǒng)方法的錯(cuò)誤率,我們可以看到基于深度學(xué)習(xí)方法新的語(yǔ)音識(shí)別策略都得到大幅的性能提升。

從2011年到現(xiàn)在,五年過(guò)去了,深度學(xué)習(xí)方法又得到了進(jìn)一步的發(fā)展。

更強(qiáng)大的深度神經(jīng)網(wǎng)絡(luò)也被應(yīng)用于語(yǔ)音識(shí)別,包括這里所列的卷積神經(jīng)網(wǎng)絡(luò),它可以對(duì)平移不變性和局部刻劃進(jìn)行很好的建模,此外對(duì)長(zhǎng)時(shí)信息建模能力比較強(qiáng)的遞歸神經(jīng)網(wǎng)絡(luò),以及在這個(gè)基礎(chǔ)上派生出來(lái)的長(zhǎng)短時(shí)記憶模型等等,此外在這些模型的基礎(chǔ)上各種組合模型也被提出,包括谷歌提出CLD模型,也就是所謂的卷積神經(jīng)網(wǎng)絡(luò)加上遞歸神經(jīng)網(wǎng)絡(luò)加上全連接網(wǎng)絡(luò)的神經(jīng)網(wǎng)絡(luò)組合模式,它可以利用各個(gè)神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì)可以進(jìn)一步的提升性能。

下圖是在電話語(yǔ)音識(shí)別庫(kù)上,從2011年到2016年,隨著深度學(xué)習(xí)的發(fā)展,語(yǔ)音識(shí)別的進(jìn)展。第一列是IBM在2011年的時(shí)候基于傳統(tǒng)方法的最好的系統(tǒng)性能,那時(shí)候大概錯(cuò)誤率14.5,隨著這幾年的發(fā)展我們慢慢的從14.5做到了將近10到去年8%的錯(cuò)誤率,在今年剛剛過(guò)去的9月國(guó)際語(yǔ)音通訊聯(lián)盟大會(huì)上IBM報(bào)道6.6的錯(cuò)誤率,但是在過(guò)去不到一個(gè)月,微軟雷德蒙研究院就報(bào)道了一個(gè)5.9%的錯(cuò)誤率??梢哉f(shuō)這幾年的發(fā)展是飛速的,這個(gè)識(shí)別結(jié)果在2015年前或者說(shuō)是不可想象的。

大家知道,電話語(yǔ)音數(shù)據(jù)庫(kù)在上世紀(jì)90年代中剛推出來(lái)的時(shí)候,它的識(shí)別性能識(shí)別錯(cuò)誤率幾乎是100%,也就是說(shuō),你說(shuō)一句話100%都是錯(cuò)誤的,一個(gè)字都沒(méi)對(duì),我們可以看到經(jīng)過(guò)20年的進(jìn)展,特別是這五年的進(jìn)展,識(shí)別性能已經(jīng)達(dá)到了一個(gè)幾乎跟人類持平的水平。

國(guó)內(nèi)語(yǔ)音識(shí)別的技術(shù)方案

這是我是根據(jù)各個(gè)公開(kāi)發(fā)表的文獻(xiàn)可查的總結(jié)了幾家所有的語(yǔ)音識(shí)別技術(shù)方案,包括百度、科大訊飛、思必馳,這三家基本上代表了業(yè)界語(yǔ)音識(shí)別研究的最高水平,因?yàn)榘俣扔邪俣壬疃妊芯吭?,訊飛和中國(guó)科學(xué)技術(shù)大學(xué)也有聯(lián)合實(shí)驗(yàn)室,思必馳和我們上海交大也有聯(lián)合實(shí)驗(yàn)室。

百度使用的是一個(gè)所謂CLD的模型,就是剛才我前面所說(shuō)的準(zhǔn)基神經(jīng)網(wǎng)絡(luò)加遞歸神經(jīng)網(wǎng)絡(luò)加全連接神經(jīng)網(wǎng)絡(luò)組合的模型;科大訊飛采用的是一個(gè)所謂FSMNN的一個(gè)模型,你可以簡(jiǎn)單的理解成它介于遞歸和前饋經(jīng)網(wǎng)絡(luò)的之間的模型,它可以既像遞歸神經(jīng)網(wǎng)絡(luò)一樣,對(duì)長(zhǎng)時(shí)信息進(jìn)行很好的建模,同時(shí)又用前饋神經(jīng)網(wǎng)絡(luò)快速計(jì)算的一個(gè)優(yōu)勢(shì);而我們思必馳和上海交大采用的是一個(gè)叫極深卷積神經(jīng)網(wǎng)絡(luò)的模型,它通過(guò)很小的卷積層和遲化層,將傳統(tǒng)應(yīng)用于語(yǔ)音識(shí)別的淺層卷積神經(jīng)網(wǎng)絡(luò)擴(kuò)展到十層以上,這樣他就可以對(duì)局部的信息進(jìn)行更加精細(xì)的建模得到很好的系統(tǒng)性能。

語(yǔ)音識(shí)別面臨的困境

在過(guò)去的五年中,基于深度學(xué)習(xí)方法,語(yǔ)音識(shí)別確實(shí)得到了一個(gè)飛速的發(fā)展,但是語(yǔ)音識(shí)別目前還面臨著很多的困境,包括噪聲魯棒性、多類復(fù)雜性、低數(shù)據(jù)資源、多語(yǔ)言特性、低計(jì)算資源等等,我將簡(jiǎn)單的介紹幾個(gè)困境。

做聲環(huán)境下的魯棒語(yǔ)音識(shí)別一直是語(yǔ)音識(shí)別大規(guī)模應(yīng)用的主要絆腳石,我們?nèi)绾卧谝恍┰肼晥?chǎng)景比較大的情況下,比如說(shuō)我們的馬路、咖啡廳,公共汽車,飛機(jī)場(chǎng),以及會(huì)議室,大巴上等等,使得得到很高的識(shí)別精度,這是非常具有挑戰(zhàn)性的。

針對(duì)這個(gè)困境,我們上海交大和思必馳推出了一些解決策略,包括環(huán)境感知的深度模型以及神經(jīng)網(wǎng)絡(luò)的快速自適應(yīng)方法,它使得我們一般的深度模型可以對(duì)環(huán)境進(jìn)行一個(gè)實(shí)時(shí)的感知和自適應(yīng)調(diào)整,來(lái)提高實(shí)現(xiàn)系統(tǒng)性能,就像人耳一樣。另外我們也將極深卷積神經(jīng)網(wǎng)絡(luò)用于抗噪的語(yǔ)音識(shí)別得到巨大的系統(tǒng)性能的提升,在這個(gè)方面,我們?cè)诮衲暝谡Z(yǔ)音處理的權(quán)威期刊IEEE/ACM Transactions on Audio, Speech and Language Processing上發(fā)表了三篇期刊論文,大家有興趣的話也可以下載翻閱。這里值得一提的是其中兩個(gè)成果,一個(gè)成果是登上了IEEE/ACM Transactions on ASLP第11、12期的封面,另一個(gè)成果也上了這個(gè)期刊在近幾個(gè)月統(tǒng)計(jì)的最流行雜志的榜首。

下面我給大家看一下在語(yǔ)音識(shí)別的著名的數(shù)據(jù)庫(kù),噪聲數(shù)據(jù)庫(kù)Aurora4世界最高水平的幾個(gè)研究機(jī)構(gòu)的系統(tǒng)性能的對(duì)比,最左邊是劍橋大學(xué)在2012年深度學(xué)習(xí)方法出來(lái)以前最好的系統(tǒng)是13.4%的一個(gè)錯(cuò)誤率,然后經(jīng)過(guò)這幾年的優(yōu)化,包括微軟2013年發(fā)表的12.4%的錯(cuò)誤率,到2014年IBM大概達(dá)到10%的錯(cuò)誤率,科大訊飛去年也是在2015年發(fā)表了一個(gè)是10.3%,也是在10%左右,我們?nèi)ツ昴甑滓驳玫?.7%的錯(cuò)誤率,我們可以看到在今年以前,大部分的研究機(jī)構(gòu)最好的識(shí)別性能錯(cuò)別率也在10%左右。

今年上半年,英國(guó)愛(ài)丁堡大學(xué)得到一個(gè)比較好的結(jié)果是8.7%的錯(cuò)誤率,但是在兩三個(gè)月以后,在今年的六七月份,我們達(dá)到了7.1%的錯(cuò)誤率。我們?cè)诳乖胝Z(yǔ)音識(shí)別上得到飛速的進(jìn)展。

過(guò)去的大部分語(yǔ)音識(shí)別系統(tǒng)的設(shè)計(jì)主要是針對(duì)一些單一環(huán)境、單一場(chǎng)景下進(jìn)行設(shè)計(jì)的,如何做多類別復(fù)雜場(chǎng)景下的通用的語(yǔ)音識(shí)別是非常困難的,比如說(shuō)在Youtube或者BBC上的一些數(shù)據(jù),可以來(lái)自各種各樣的語(yǔ)境和場(chǎng)景,有新聞廣播、新聞采訪、音樂(lè)會(huì)、訪談、電影等等,如何在多預(yù)警下做成一個(gè)通用的魯棒的語(yǔ)音識(shí)別性能呢,是比較有挑戰(zhàn)性的。

在這個(gè)方面我們?nèi)ツ陞⒓恿擞捎?guó)BBC公司和EPSRC主辦的MGB挑戰(zhàn)賽,其中我們?cè)谒膫€(gè)單向上均列世界第一,且每個(gè)單向的成績(jī)均大幅領(lǐng)先第二名,包括語(yǔ)音識(shí)別、說(shuō)話人分割聚類、標(biāo)注對(duì)齊和時(shí)序漸進(jìn)語(yǔ)音識(shí)別等。

目前大部分語(yǔ)音識(shí)別的研究和應(yīng)用,主要是基于一些大語(yǔ)種,比如說(shuō)英語(yǔ)、漢語(yǔ)、阿拉伯語(yǔ)和法語(yǔ)等等,我們知道世界上一共有6900多種語(yǔ)言,如何快速的實(shí)現(xiàn)一套基于任何語(yǔ)言的語(yǔ)言識(shí)別系統(tǒng)是非常困難的,它也具有重大的戰(zhàn)略意義。包括美國(guó)IARPA這幾年的Babel計(jì)劃,以及之前DARPA的GALE計(jì)劃,考慮到中國(guó)的國(guó)情我們有56個(gè)民族,所以構(gòu)建一套多語(yǔ)言低數(shù)據(jù)資源下的語(yǔ)音識(shí)別系統(tǒng)是非常關(guān)鍵和具有實(shí)際價(jià)值的。

在這個(gè)方面我們也在公開(kāi)相同的數(shù)據(jù)環(huán)境下,搭建了相關(guān)系統(tǒng),下圖是我們和美國(guó)約翰霍普金斯大學(xué)的性能對(duì)比,我們?cè)谙嗤瑪?shù)據(jù)集合上取得了一個(gè)更優(yōu)的一個(gè)策略。

目前大部分的語(yǔ)音識(shí)別的應(yīng)用,包括我們手機(jī)上看到的一些app的應(yīng)用,這些語(yǔ)音識(shí)別背后都是基于云端的在線的一些語(yǔ)音識(shí)別的服務(wù)。如何在離線的環(huán)境下,基于一些有限的硬件資源做一些低功耗的離線的實(shí)時(shí)的大智慧的連續(xù)性識(shí)別是非常困難的,但是如果這個(gè)困境能解決,也是可以將語(yǔ)音識(shí)別真正走向千家萬(wàn)戶,有巨大的推動(dòng)作用的。

在這個(gè)方面我們也提出了解決策略,我們通過(guò)用連接時(shí)續(xù)模型去取代隱含馬爾科夫模型,將系統(tǒng)性能在速度上提升了7倍多,同時(shí)我們將傳統(tǒng)的基于幀同步的解碼方案替換成音素同步解碼方案,將系統(tǒng)的實(shí)時(shí)率進(jìn)一步提升到20倍,相關(guān)的方法我們也今年發(fā)表在IEEE/ACM Transactions on ASLP的期刊上。下面有相關(guān)的論文的介紹,大家也可以下載。

幾個(gè)有用的開(kāi)源工具、參考書

它是由約翰霍普金斯Dan Povey領(lǐng)導(dǎo)的,由九家著名語(yǔ)音機(jī)構(gòu)13人核心工作組歷時(shí)兩年開(kāi)發(fā)完成的語(yǔ)音識(shí)別開(kāi)源軟件,我也是這13人核心工作組中唯一來(lái)自亞洲的成員,當(dāng)時(shí)我在清華大學(xué),現(xiàn)在是在上海交通大學(xué)工作。然后這套工具包自2011年發(fā)布以來(lái),下載量已經(jīng)超過(guò)了兩萬(wàn)多次,合著的論文目前也已經(jīng)被引用一千多次。

Kaldi的影響是巨大的,他是第一個(gè)完全用C++編寫的,基于加權(quán)有限狀態(tài)及理論的語(yǔ)音識(shí)別開(kāi)源軟件,它的模塊化與高度可擴(kuò)展性設(shè)計(jì),詳細(xì)的說(shuō)明文檔,完備公開(kāi)的實(shí)力教程,也使得它受廣大開(kāi)發(fā)者喜好的一個(gè)主要的原因。他目前被業(yè)界廣泛采用作為標(biāo)準(zhǔn)工具,包括學(xué)術(shù)界的MIT、CMU、GHU、劍橋,國(guó)內(nèi)的清華、上海交大等等,工業(yè)界包括微軟、谷歌、IBM,F(xiàn)acebook等等,它的推出也極大推進(jìn)整個(gè)語(yǔ)音識(shí)別領(lǐng)域的發(fā)展。

它是語(yǔ)音識(shí)別歷史上第一個(gè)開(kāi)源的工具包,由劍橋大學(xué)的兩位教授,一個(gè)是劍橋大學(xué)的前副校長(zhǎng)Steve Young,還有一個(gè)是劍橋大學(xué)智能語(yǔ)音實(shí)驗(yàn)室的主任Phil Woodland教授領(lǐng)導(dǎo)開(kāi)發(fā)的一個(gè)開(kāi)源軟件工具包,這兩位也是英國(guó)皇家工程院的院士。Phil Woodland教授也是我當(dāng)時(shí)在劍橋做博士后研究時(shí)候的合作導(dǎo)師。

HTK目前有十多萬(wàn)的注冊(cè)用戶,引用次數(shù)也超過(guò)了五千多次,它所構(gòu)建的系統(tǒng)連續(xù)蟬聯(lián)了美國(guó)INST和DARPA評(píng)測(cè)的冠軍,可以說(shuō)在深度學(xué)習(xí)出來(lái)以前,基于HTK的一些系統(tǒng)統(tǒng)治了語(yǔ)音識(shí)別將近20年。這里值得一提比較有趣的事情是前面開(kāi)源工具包Kaldi的作者是Dan Povey,其中Dan Povey又是這個(gè)HTK工具包Phil Woodland教授的學(xué)生,所以我們可以說(shuō),老師開(kāi)發(fā)了第一代語(yǔ)音識(shí)別開(kāi)源軟件,學(xué)生開(kāi)發(fā)了第二代語(yǔ)音識(shí)別開(kāi)源軟件。

在去年,HTK針對(duì)深度學(xué)習(xí)方法,也發(fā)布了它的3.5版本,它可以對(duì)通用的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行支持,此外還包括基于神經(jīng)網(wǎng)絡(luò)的自適應(yīng)技術(shù),基于神經(jīng)網(wǎng)絡(luò)的鑒別性訓(xùn)練方法等等,其他包括準(zhǔn)基神經(jīng)網(wǎng)絡(luò),GRU,LSTM等等也在發(fā)布的計(jì)劃中,使用HTK3.5所構(gòu)建的系統(tǒng)在這兩年也獲得多個(gè)世界性評(píng)測(cè)的冠軍,其中我在前面兩年也參與了如下的一些工作:包括2014年DARPA-BOLT的冠軍,2014年IARPA-Babel的冠軍,2015年IARPA-Babel的冠軍,以及2015年EPSRC-MGB的冠軍,還有今年的IARPA-Babel的亞軍等等。我也參與了其中幾個(gè)比賽系統(tǒng)的構(gòu)建。

這是一套語(yǔ)言模型的開(kāi)源工具軟件,也是由劍橋大學(xué)開(kāi)發(fā)去年發(fā)布的,我也是合著者之一。它是對(duì)遞歸神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型進(jìn)行了一個(gè)很好的支持,相比之前捷克布爾諾理工發(fā)布的RNNLM版本,它可以很好的用GPU進(jìn)行加速訓(xùn)練,同時(shí)它又可以支持快速的訓(xùn)練和評(píng)估的算法和自適應(yīng)技術(shù)。此外這套工具包又對(duì)HTK和Kaldi兩套開(kāi)源軟件進(jìn)行了很好的適配,可以對(duì)兩個(gè)系統(tǒng)的Lattice進(jìn)行重打分和重新解碼計(jì)算,這套開(kāi)源工具包也被劍橋應(yīng)用于近期的各個(gè)比賽的系統(tǒng),得到了很好的一個(gè)成績(jī)。

目前比較流行的使用范圍比較廣的,包括微軟的CNTK,谷歌的Tensorflow,以及由DMLC維護(hù)的mxnet等等,還有之前包括來(lái)自蒙特利爾大學(xué)的Theano,來(lái)自伯克利的Caffe以及來(lái)自NYU的Torch等等。每套工具都有各自的優(yōu)勢(shì),不能說(shuō)孰優(yōu)孰劣,這完全根據(jù)大家的各自的興趣以及開(kāi)發(fā)的語(yǔ)言的喜歡去選擇。

這里我想重點(diǎn)介紹的是微軟的CNTK,也是目前我們上海交大和思必馳所使用的一套深度學(xué)習(xí)的開(kāi)源軟件。它是由微軟的雷德蒙研究院黃學(xué)東博士領(lǐng)導(dǎo)開(kāi)發(fā)的一套計(jì)算網(wǎng)絡(luò)工具包,它可以很好的支持對(duì)各種神經(jīng)網(wǎng)絡(luò),對(duì)各種新奇算法訓(xùn)練的支持,此外在CNTK對(duì)Theano、Tensorflow、torch和Caffe等等的計(jì)算速度的對(duì)比方面,CNTK無(wú)論在單GPU,或是單機(jī)多卡的情況下,還是多機(jī)多卡的情況下,在速度上都有一個(gè)明顯的性能的優(yōu)勢(shì)。

這是由美國(guó)微軟雷德蒙研究院首席科學(xué)家俞棟老師和鄧力老師撰寫的一本關(guān)于深度學(xué)習(xí)和語(yǔ)音識(shí)別相結(jié)合的書籍,同時(shí)這本書中又對(duì)深度學(xué)習(xí)和語(yǔ)音識(shí)別在一些產(chǎn)品級(jí)應(yīng)用上的一些細(xì)節(jié)做了一些案例的介紹,它的英文版已經(jīng)與去年由斯普林格出版社正式出版。此外我和俞凱教授兩個(gè)人對(duì)這本英文版進(jìn)行了翻譯,中文譯本于今年由電子工業(yè)出版社出版,大家也可以在京東或者亞馬遜上進(jìn)行購(gòu)買。

思必馳和上海交大聯(lián)合實(shí)驗(yàn)室

思必馳是國(guó)內(nèi)為數(shù)不多的擁有完整知識(shí)產(chǎn)權(quán)的語(yǔ)音公司,從縱向上看,它是國(guó)內(nèi)僅有的兩家擁有全面的語(yǔ)音技術(shù)的公司之一,我們從2007年劍橋創(chuàng)立至今已經(jīng)走過(guò)了近十年,從基本的大數(shù)據(jù)開(kāi)始做積累,從識(shí)別引擎開(kāi)始做,慢慢做到語(yǔ)音合成,再到語(yǔ)音識(shí)別++,再到現(xiàn)在整體的語(yǔ)音交互系統(tǒng),我們?cè)谡Z(yǔ)音這條路上不斷的深入下去,在2015年的年初,思必馳也首個(gè)提出了認(rèn)知智能概念層次。

從橫向上看,思必馳是目前國(guó)內(nèi)唯一一家只針對(duì)智能硬件領(lǐng)域提供語(yǔ)音支持的公司,我們只針對(duì)智能車載、家居、機(jī)器人三個(gè)領(lǐng)域提供解決方案,保證技術(shù)的垂直性和適用性,我們自己不做2C的產(chǎn)品,但是向企業(yè)提供純軟的解決方案和軟硬一體化的解決方案。我們是一個(gè)技術(shù)型的AI公司,盡量根據(jù)客戶的不同需求去提供各種實(shí)用且合適的語(yǔ)音方案。純軟的解決方案,即我們的AIOS,思必馳人工智能操作系統(tǒng),去年10月也率先推出了AIOS for Car,在后端市場(chǎng)上占有率達(dá)到60%,其中智能后視鏡在70%左右,HUD車載占據(jù)了大概80%,同時(shí)和小鵬汽車、智車優(yōu)行等互聯(lián)網(wǎng)汽車也簽署了合作。此外我們還有軟硬一體化的解決方案,包括國(guó)內(nèi)首款量產(chǎn)的環(huán)形6+1遠(yuǎn)場(chǎng)麥克風(fēng)陣列,四麥線性方案,以及和君正、慶科合作推出帶語(yǔ)音功能的芯片模組。

思必馳目前已經(jīng)快速成長(zhǎng)為這個(gè)領(lǐng)域的No.1,目前思必馳的業(yè)務(wù)合作領(lǐng)域主要專注在智能硬件領(lǐng)域,包括車載、家居、機(jī)器人。目前在智能車載中,思必馳還主要是在后裝市場(chǎng),是阿里YunOS的唯一戰(zhàn)略合作伙伴,所有用YunOS的車載產(chǎn)品都用的是思必馳語(yǔ)音,思必馳目前后裝市場(chǎng)占有率是第一,60%左右,智能后視鏡領(lǐng)域約為70%,HUD約為80%。在智能家居領(lǐng)域,包括音箱、電視、空調(diào)、油煙機(jī)等等,以及前兩天小米剛發(fā)布的小米音箱也是我們最新的合作案例,今年年底或明年年初,我們還有幾款重要的合作客戶產(chǎn)品要上市,敬請(qǐng)大家期待。在家居領(lǐng)域,思必馳還有上升空間,目前在第二。而智能機(jī)器人領(lǐng)域,由于生態(tài)尚早,現(xiàn)在機(jī)器人產(chǎn)品龍蛇混雜,但未來(lái)潛力大,我們主要是在與服務(wù)型機(jī)器人合作,塑造典型的精品案例,包括大華小樂(lè)機(jī)器人、360小巴迪、東方網(wǎng)力、金剛蟻的小憶機(jī)器人、小蘿卜機(jī)器人等,都是我們的合作案例。

我們除了在不斷深入語(yǔ)音技術(shù)研發(fā)以外,還在做的一件事情就是打通整個(gè)后端服務(wù),從導(dǎo)航到音樂(lè),到資訊搜索,到個(gè)人管家甚至O2O,通過(guò)語(yǔ)音交互,讓用戶和第三方內(nèi)容無(wú)縫鏈接起來(lái),提供一站式的產(chǎn)業(yè)化服務(wù),配合合作客戶一起打造更實(shí)用,更有趣的人機(jī)交互體驗(yàn),在未來(lái)很長(zhǎng)一段時(shí)間內(nèi),這都將是我們堅(jiān)持不變的理念和方向。(本文獨(dú)家首發(fā)鈦媒體,根據(jù)思必馳上海交大聯(lián)合實(shí)驗(yàn)室副主任、上海交通大學(xué)計(jì)算機(jī)科學(xué)與工程系助理教授錢彥旻在鈦坦白上的分享整理)

………………………………………………

鈦坦白第27期,也是“AI已來(lái)”系列第一期,六位鈦客的精彩分享已經(jīng)結(jié)束,干貨會(huì)陸續(xù)發(fā)布:http://www.chcmb.cn/tag/1508094

【預(yù)告】鈦坦白第28期:AI已來(lái),讓機(jī)器看懂這個(gè)世界

時(shí)間:12月26日、27日19點(diǎn)-22點(diǎn)

地點(diǎn):鈦坦白|人工智能(微信群)

報(bào)名入群:在微信公號(hào)“鈦媒體”(taimeiti),發(fā)送“鈦坦白”

推薦鈦客、贊助、合作:請(qǐng)與鈦坦白負(fù)責(zé)人佳音聯(lián)系,郵箱jiayinge@tmtpost.com

本文系作者 葛佳音 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請(qǐng)注明出處、作者和本文鏈接
本內(nèi)容來(lái)源于鈦媒體鈦度號(hào),文章內(nèi)容僅供參考、交流、學(xué)習(xí),不構(gòu)成投資建議。
想和千萬(wàn)鈦媒體用戶分享你的新奇觀點(diǎn)和發(fā)現(xiàn),點(diǎn)擊這里投稿 。創(chuàng)業(yè)或融資尋求報(bào)道,點(diǎn)擊這里

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評(píng)論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論

請(qǐng) 登錄后輸入評(píng)論內(nèi)容
  • 最近不是有篇文章說(shuō),TX小馬哥嫌語(yǔ)音搜索私密性差不想做,這又怎么解決呢?

    回復(fù) 2016.12.08 · via pc
  • 厲害??

    回復(fù) 2016.12.07 · via iphone

快報(bào)

更多

19:23

STOXX歐洲600指數(shù)漲幅擴(kuò)大至1%,創(chuàng)下當(dāng)日高點(diǎn)

19:18

DeepSeek連續(xù)3天發(fā)生服務(wù)異常

19:17

沃爾核材:2025年度凈利潤(rùn)11.44億元,同比增長(zhǎng)34.96%

19:17

捷佳偉創(chuàng):詢價(jià)轉(zhuǎn)讓初步定價(jià)94.12元/股

19:16

霸王茶姬2025全年凈收入達(dá)129.1億,海外GMV大漲超84%

19:15

智譜AI發(fā)布上市后首份財(cái)報(bào):營(yíng)收同比增長(zhǎng)131.9%

19:04

陽(yáng)光電源:2025年度凈利潤(rùn)134.61億元,同比增長(zhǎng)21.97%

19:00

LME期鋁期貨合約上漲3%,至每噸3,505美元

18:58

兩面針:實(shí)際控制人將變更為廣西壯族自治區(qū)國(guó)資委,明起復(fù)牌

18:57

春秋航空:控股股東提議3億元-5億元回購(gòu)股份

18:57

中指研究院:前三個(gè)月TOP100房企銷售總額6208.7億元

18:48

雪浪環(huán)境:與7家財(cái)務(wù)投資人簽署重整投資協(xié)議

18:47

長(zhǎng)春高新:1類治療用生物制品GenSci161注射液臨床試驗(yàn)申請(qǐng)獲批準(zhǔn) 目前國(guó)內(nèi)外尚無(wú)同類藥物在子宮內(nèi)膜異位癥領(lǐng)域獲批上市

18:33

嘉華股份:實(shí)控人籌劃控制權(quán)變更,明起停牌

18:28

順網(wǎng)科技:擬收購(gòu)紹興未來(lái)山海32.34%股權(quán)

18:26

央行:2月同業(yè)拆借日均成交4293.2億元,同比增加87.1%

18:25

美的集團(tuán):3月31日回購(gòu)130.51萬(wàn)股,耗資約1億元

18:20

二季度國(guó)債發(fā)行有關(guān)安排公布,機(jī)構(gòu)認(rèn)為二季度發(fā)行有望放量

18:19

2025年中國(guó)保險(xiǎn)行業(yè)承保新能源汽車同比增長(zhǎng)40.1%

18:18

杭華股份:持股5%以上股東擬減持不超3%股份

3

掃描下載App