欧美亚洲三级A片无码在线观看,久久久久久夜色资源网,亚洲国产国际成人网

過(guò)去三個(gè)月，在語(yǔ)音識(shí)別領(lǐng)域有幾個(gè)大新聞：一個(gè)是今年10月，美國(guó)微軟雷德蒙研究院在電話語(yǔ)音識(shí)別的標(biāo)準(zhǔn)庫(kù)Switchboard上報(bào)道達(dá)到5.9%的錯(cuò)誤率，我們要知道，在這個(gè)庫(kù)上人類也只能達(dá)到大概5.9%，而機(jī)器的性能已經(jīng)和人類基本達(dá)到了持平；第二個(gè)新聞是在今年9月，也就是國(guó)際語(yǔ)音通信聯(lián)合會(huì)的最后一天報(bào)道的CHIME4國(guó)際多通道語(yǔ)音分離和識(shí)別大賽，你可以簡(jiǎn)單認(rèn)為這是一個(gè)在限定詞表和場(chǎng)景下的帶噪的語(yǔ)音識(shí)別挑戰(zhàn)賽，最好的系統(tǒng)性能報(bào)道達(dá)到了將近2%的錯(cuò)誤率；第三個(gè)新聞可能大家更關(guān)心，是關(guān)于中文的，在剛剛過(guò)去的兩周，百度、搜狗、訊飛進(jìn)行了連續(xù)三場(chǎng)的發(fā)布會(huì)，他們各家都展示了語(yǔ)音交互相關(guān)的一些系統(tǒng)，并且有趣的是，他們均表示通用領(lǐng)域下的識(shí)別性能達(dá)到97%。

看到這里，很多聽(tīng)眾可能會(huì)問(wèn)，語(yǔ)音識(shí)別的性能已經(jīng)如此之高，對(duì)它進(jìn)行研究還有價(jià)值嗎？包括我自己的學(xué)生也會(huì)問(wèn)我，錢老師，語(yǔ)音識(shí)別性能已經(jīng)做得如此好了，我們還需要進(jìn)一步研究嗎？我們做這個(gè)課題還能畢業(yè)嗎？

那我想問(wèn)大家的是，在垂直應(yīng)用方向，語(yǔ)音識(shí)別的的難題真的解決了嗎？這里我將以上三個(gè)big news背后的語(yǔ)音識(shí)別系統(tǒng)應(yīng)用到的主要的技術(shù)羅列如下：

將以上三個(gè)系統(tǒng)背后的技術(shù)應(yīng)用到我們真實(shí)的產(chǎn)品中，比如這里所列的apple的siri、google的google now、微軟的cortana助手、亞馬遜的echo，性能優(yōu)會(huì)怎么樣？我可以告訴大家，這里所列的很多技術(shù)都不能很好地工作。這是因?yàn)?strong>以上三個(gè)系統(tǒng)的相關(guān)技術(shù)都是針對(duì)特定的任務(wù)以及在特定的環(huán)境下進(jìn)行過(guò)度調(diào)優(yōu)的。

我們來(lái)看一個(gè)視頻，看看現(xiàn)實(shí)生活中的語(yǔ)音識(shí)別到底是怎么樣的？

我們可以看到，即使是一個(gè)研究比較成熟的英文的命令詞識(shí)別系統(tǒng)，給它只要添加一點(diǎn)點(diǎn)的麻煩，比如用蘇格蘭口音的英語(yǔ)，它的性能就會(huì)急速的下降。所以，在這些非配合式的語(yǔ)音交互方面，語(yǔ)音識(shí)別的性能遠(yuǎn)遠(yuǎn)沒(méi)有滿足我們的要求。所謂的配合式，比如說(shuō)要求你說(shuō)普通話，要求你拿手持麥克風(fēng)等等，我們要是沒(méi)有這些條件，讓你一個(gè)用戶隨便的進(jìn)行一個(gè)自然語(yǔ)言的交流，它的系統(tǒng)能照樣保持魯棒性嗎？所以，語(yǔ)音識(shí)別的路還很長(zhǎng)。

傳統(tǒng)語(yǔ)音識(shí)別如何實(shí)現(xiàn)？

語(yǔ)音識(shí)別是對(duì)語(yǔ)音內(nèi)容進(jìn)行提取的一把金鑰匙，它的研究可以追溯到半個(gè)世紀(jì)以前。在本世紀(jì)初，基于語(yǔ)音識(shí)別的一些產(chǎn)品已經(jīng)開(kāi)始問(wèn)世，最有代表性的是在2000年左右，美軍用于伊拉克戰(zhàn)場(chǎng)的語(yǔ)音翻譯機(jī)。2011年apple在iphone4s上推出的siri語(yǔ)音助手，之后包括微軟、谷歌、亞馬遜，以及國(guó)內(nèi)的百度、訊飛、思必馳等等也推出了各自基于語(yǔ)音交互的產(chǎn)品。國(guó)內(nèi)外的研究機(jī)構(gòu)很多，包括國(guó)外的微軟、谷歌、IBM、亞馬遜，以及國(guó)內(nèi)的百度、訊飛、思必馳等等。學(xué)術(shù)界就更多了，包括老牌的劍橋、MIT、JHU，以及國(guó)內(nèi)的清華大學(xué)、中國(guó)科大、上海交大等等。

語(yǔ)音識(shí)別歷來(lái)是人工智能和機(jī)器學(xué)習(xí)中的十大經(jīng)典難題之一，它的難點(diǎn)可以歸結(jié)為三個(gè)不確定性——說(shuō)話人、環(huán)境、設(shè)備。說(shuō)話人方面，我們不同的人有不同的口音，來(lái)自不同的方言區(qū)，說(shuō)話的時(shí)候又有不同的方式，同時(shí)我們?cè)谡f(shuō)話的時(shí)候運(yùn)用不同的情感；我們真實(shí)的環(huán)境是非常復(fù)雜的，包括各種各樣的噪聲，包括汽車?yán)嚷?、飛機(jī)的噪聲、馬路上人的聲音，還有一些會(huì)場(chǎng)的回聲等等；設(shè)備方面，我們可以用手持麥克風(fēng)、領(lǐng)夾麥克風(fēng)、耳戴麥克風(fēng)、近場(chǎng)遠(yuǎn)場(chǎng)的麥克風(fēng)等等。此外在真實(shí)的實(shí)際應(yīng)用場(chǎng)景下，往往是這三個(gè)因素疊加在一起的，使得整個(gè)的影響變得更加的復(fù)雜，所以如何設(shè)計(jì)一套魯棒的性能好的語(yǔ)音識(shí)別系統(tǒng)，來(lái)很好的處理這些不確定性，也是非常具有挑戰(zhàn)性的。

統(tǒng)計(jì)語(yǔ)音識(shí)別，如果從數(shù)學(xué)上來(lái)定義，可以歸結(jié)為如下圖的概率公式。這里的P（W|O）給定你觀測(cè)到的語(yǔ)音，來(lái)得到最大的詞序列。通過(guò)公式展開(kāi)，這個(gè)概率可以歸為兩個(gè)概率，也就是P（O|W）和P（W），對(duì)應(yīng)到我們語(yǔ)音識(shí)別中的聲學(xué)模型和語(yǔ)言模型。當(dāng)然這個(gè)概率可以進(jìn)一步的分解，分解成如下的四個(gè)概率，這四個(gè)概率在語(yǔ)音識(shí)別系統(tǒng)的設(shè)計(jì)上也對(duì)應(yīng)到如下框圖中的四個(gè)模塊，其中P（A|O）是前端語(yǔ)音信號(hào)處理模塊，P（O|L）是聲學(xué)模型模塊，P（L|W）的字典模塊，P（W）是語(yǔ)言模型。在這四個(gè)模塊下，通過(guò)一個(gè)解碼的過(guò)程得到最終的語(yǔ)音識(shí)別結(jié)果。

第一個(gè)概率模型是特征提取P（A|O）。特征提取是所有的模式識(shí)別問(wèn)題的第一步，如何從一個(gè)原始的信號(hào)中提取具有更具有鑒別性、區(qū)分性的特征是非常關(guān)鍵的，原始的語(yǔ)音模型信號(hào)冗余度比較大，所以我們必須對(duì)它進(jìn)行特征的抽取。一旦特征提取的模式確定下來(lái)之后，其實(shí)這個(gè)概率模型我們也可以簡(jiǎn)單的將它理解成一個(gè)確定化的模型。

第二個(gè)概率模型是聲學(xué)模型P（O|L），它可以描述不同聲音之間的各種不同特性，是語(yǔ)音識(shí)別四個(gè)模塊中最關(guān)鍵的技術(shù)之一。據(jù)我所知，大部分公司中的語(yǔ)音組以及研究機(jī)構(gòu)的語(yǔ)音組聲學(xué)模型的小組肯定是所有的team中最大的。這也可以看到它的重要性，概率模型P（O|L）用于刻劃不同語(yǔ)音單元之間的特性，比如說(shuō)音素、音節(jié)、詞字等等，在語(yǔ)音識(shí)別發(fā)展的過(guò)去二三十年，HMM模型被廣泛的采用，并占據(jù)統(tǒng)治地位。

第三個(gè)概率模型是字典模型P（L|W）。字典模型為聲學(xué)模型以及后面要介紹的語(yǔ)言模型之間構(gòu)建了一個(gè)橋梁，它在詞和聲學(xué)單元之間定義了一個(gè)映射，它可以是一個(gè)確定化的模型，也可以是一個(gè)概率模型，舉一個(gè)簡(jiǎn)單的例子，tomato我們可以有兩種發(fā)音，一種是英式，一種是美式，如果假設(shè)我們現(xiàn)在是在美國(guó)，那我們可以很有理由的相信，現(xiàn)在使用tomato的概率比tomato高，所以我們將tomato賦予概率5.55，tomato概率賦予5.45。

第四個(gè)概率模型是語(yǔ)言模型P(W)。語(yǔ)言模型是在給定歷史的情況下預(yù)測(cè)下一個(gè)詞的概率，它可以很好的引導(dǎo)搜索算法，消除聲學(xué)單元之間的混淆性，特別是那些聲學(xué)層相似的單元。舉的一個(gè)例子，great wine 和grey twine如果沒(méi)有語(yǔ)言模型，在純聲學(xué)音素層面，把這兩個(gè)字串寫成兩個(gè)音素串是完全一模一樣的，所以在這種情況下，我們僅靠聲學(xué)去區(qū)分是不可行的，在這種情況下語(yǔ)言模型就變得很重要，你想第一個(gè)組合Great wine是一種正常的搭配，grey twine第二種組合是不會(huì)存在的。

語(yǔ)言模型的具體的應(yīng)用有很多種，包括之前的那種上下文自由語(yǔ)法，你可以簡(jiǎn)單認(rèn)為他是一種特殊的比較簡(jiǎn)單的語(yǔ)言模型，到后來(lái)過(guò)去的二三十年中一直占據(jù)統(tǒng)治地位的N-gram語(yǔ)言模型，以及在近幾年比較火的基于深度學(xué)習(xí)方法，基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型，但是由于一些應(yīng)用上的局限性，據(jù)我所知目前在大部分公司或者是研究組性能最好的商用的語(yǔ)音識(shí)別系統(tǒng)采用的語(yǔ)言模型還是N-gram的語(yǔ)言模型。

在這四個(gè)概率模型建模的基礎(chǔ)上，我們可以在一個(gè)龐大的搜索網(wǎng)絡(luò)上進(jìn)行搜索和解碼，下圖是一個(gè)簡(jiǎn)單搜索網(wǎng)絡(luò)的示意。當(dāng)然我們?cè)趯?shí)際的應(yīng)用中，搜索網(wǎng)絡(luò)要比這個(gè)復(fù)雜成千上萬(wàn)倍，在這四個(gè)概率的引導(dǎo)下，我們通過(guò)我們的最優(yōu)化的方法將最后的識(shí)別結(jié)果給找出來(lái)，根據(jù)相關(guān)算法的不同可以分為如下的種類，包括動(dòng)態(tài)的、靜態(tài)的解碼器，以及深度優(yōu)先或者廣度優(yōu)先，以及單便利和多便利解碼器等等，目前大部分商用系統(tǒng)采用的是靜態(tài)的、廣度優(yōu)先的、多便利解碼算法。

到這里我已經(jīng)把傳統(tǒng)語(yǔ)音識(shí)別的幾個(gè)重要模塊給介紹完了，當(dāng)然每個(gè)模塊其實(shí)就是一個(gè)很大的課題，可以做很多的研究。

基于深度學(xué)習(xí)的語(yǔ)音識(shí)別

傳統(tǒng)的語(yǔ)音識(shí)別需要經(jīng)過(guò)前端的信號(hào)處理、特征特區(qū)、聲學(xué)模型、語(yǔ)言模型等等各個(gè)模塊的優(yōu)化，來(lái)實(shí)現(xiàn)整個(gè)系統(tǒng)的識(shí)別。深度學(xué)習(xí)出來(lái)以后主要做了哪些工作呢？

下圖是基于深度學(xué)習(xí)的第一代的語(yǔ)音識(shí)別系統(tǒng)，我們可以看到，它是將傳統(tǒng)的特征特區(qū)模塊和聲學(xué)建模模塊完成了我們這里的DNN這部分，它將傳統(tǒng)的聲學(xué)模型中基于淺層的高斯混合模型替換成了我們現(xiàn)在的深度神經(jīng)網(wǎng)絡(luò)模型，通過(guò)深度神經(jīng)網(wǎng)絡(luò)模型的多層的非線性建模能力直接預(yù)測(cè)狀態(tài)之間的分布函數(shù)，同時(shí)他不需要像傳統(tǒng)方法一樣進(jìn)行基于人工的細(xì)致調(diào)節(jié)的特征的特區(qū)，他通過(guò)自身的深度模型的特征引擎能力，就可以從比較原始的語(yǔ)音信號(hào)中提取中比較具有鑒別能力的特征。

語(yǔ)音識(shí)別是深度學(xué)習(xí)方法第一個(gè)成功的任務(wù)，下圖我們列出了在2011年以后，深度學(xué)習(xí)方法提出來(lái)以后，包括微軟、谷歌，IBM，在各個(gè)語(yǔ)音識(shí)別任務(wù)上的性能對(duì)比，包括電話信道、廣播信道，谷歌的移動(dòng)信道包括像Yoube這種復(fù)雜的語(yǔ)音數(shù)據(jù)上，中間的那列紅色的就是基于深度學(xué)習(xí)方法之后的詞的錯(cuò)誤率，最右邊那列是傳統(tǒng)方法的錯(cuò)誤率，我們可以看到基于深度學(xué)習(xí)方法新的語(yǔ)音識(shí)別策略都得到大幅的性能提升。

從2011年到現(xiàn)在，五年過(guò)去了，深度學(xué)習(xí)方法又得到了進(jìn)一步的發(fā)展。

更強(qiáng)大的深度神經(jīng)網(wǎng)絡(luò)也被應(yīng)用于語(yǔ)音識(shí)別，包括這里所列的卷積神經(jīng)網(wǎng)絡(luò)，它可以對(duì)平移不變性和局部刻劃進(jìn)行很好的建模，此外對(duì)長(zhǎng)時(shí)信息建模能力比較強(qiáng)的遞歸神經(jīng)網(wǎng)絡(luò)，以及在這個(gè)基礎(chǔ)上派生出來(lái)的長(zhǎng)短時(shí)記憶模型等等，此外在這些模型的基礎(chǔ)上各種組合模型也被提出，包括谷歌提出CLD模型，也就是所謂的卷積神經(jīng)網(wǎng)絡(luò)加上遞歸神經(jīng)網(wǎng)絡(luò)加上全連接網(wǎng)絡(luò)的神經(jīng)網(wǎng)絡(luò)組合模式，它可以利用各個(gè)神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì)可以進(jìn)一步的提升性能。

下圖是在電話語(yǔ)音識(shí)別庫(kù)上，從2011年到2016年，隨著深度學(xué)習(xí)的發(fā)展，語(yǔ)音識(shí)別的進(jìn)展。第一列是IBM在2011年的時(shí)候基于傳統(tǒng)方法的最好的系統(tǒng)性能，那時(shí)候大概錯(cuò)誤率14.5，隨著這幾年的發(fā)展我們慢慢的從14.5做到了將近10到去年8%的錯(cuò)誤率，在今年剛剛過(guò)去的9月國(guó)際語(yǔ)音通訊聯(lián)盟大會(huì)上IBM報(bào)道6.6的錯(cuò)誤率，但是在過(guò)去不到一個(gè)月，微軟雷德蒙研究院就報(bào)道了一個(gè)5.9%的錯(cuò)誤率?？梢哉f(shuō)這幾年的發(fā)展是飛速的，這個(gè)識(shí)別結(jié)果在2015年前或者說(shuō)是不可想象的。

大家知道，電話語(yǔ)音數(shù)據(jù)庫(kù)在上世紀(jì)90年代中剛推出來(lái)的時(shí)候，它的識(shí)別性能識(shí)別錯(cuò)誤率幾乎是100%，也就是說(shuō)，你說(shuō)一句話100%都是錯(cuò)誤的，一個(gè)字都沒(méi)對(duì)，我們可以看到經(jīng)過(guò)20年的進(jìn)展，特別是這五年的進(jìn)展，識(shí)別性能已經(jīng)達(dá)到了一個(gè)幾乎跟人類持平的水平。

國(guó)內(nèi)語(yǔ)音識(shí)別的技術(shù)方案

這是我是根據(jù)各個(gè)公開(kāi)發(fā)表的文獻(xiàn)可查的總結(jié)了幾家所有的語(yǔ)音識(shí)別技術(shù)方案，包括百度、科大訊飛、思必馳，這三家基本上代表了業(yè)界語(yǔ)音識(shí)別研究的最高水平，因?yàn)榘俣扔邪俣壬疃妊芯吭?，訊飛和中國(guó)科學(xué)技術(shù)大學(xué)也有聯(lián)合實(shí)驗(yàn)室，思必馳和我們上海交大也有聯(lián)合實(shí)驗(yàn)室。

百度使用的是一個(gè)所謂CLD的模型，就是剛才我前面所說(shuō)的準(zhǔn)基神經(jīng)網(wǎng)絡(luò)加遞歸神經(jīng)網(wǎng)絡(luò)加全連接神經(jīng)網(wǎng)絡(luò)組合的模型；科大訊飛采用的是一個(gè)所謂FSMNN的一個(gè)模型，你可以簡(jiǎn)單的理解成它介于遞歸和前饋經(jīng)網(wǎng)絡(luò)的之間的模型，它可以既像遞歸神經(jīng)網(wǎng)絡(luò)一樣，對(duì)長(zhǎng)時(shí)信息進(jìn)行很好的建模，同時(shí)又用前饋神經(jīng)網(wǎng)絡(luò)快速計(jì)算的一個(gè)優(yōu)勢(shì)；而我們思必馳和上海交大采用的是一個(gè)叫極深卷積神經(jīng)網(wǎng)絡(luò)的模型，它通過(guò)很小的卷積層和遲化層，將傳統(tǒng)應(yīng)用于語(yǔ)音識(shí)別的淺層卷積神經(jīng)網(wǎng)絡(luò)擴(kuò)展到十層以上，這樣他就可以對(duì)局部的信息進(jìn)行更加精細(xì)的建模得到很好的系統(tǒng)性能。

語(yǔ)音識(shí)別面臨的困境

在過(guò)去的五年中，基于深度學(xué)習(xí)方法，語(yǔ)音識(shí)別確實(shí)得到了一個(gè)飛速的發(fā)展，但是語(yǔ)音識(shí)別目前還面臨著很多的困境，包括噪聲魯棒性、多類復(fù)雜性、低數(shù)據(jù)資源、多語(yǔ)言特性、低計(jì)算資源等等，我將簡(jiǎn)單的介紹幾個(gè)困境。

做聲環(huán)境下的魯棒語(yǔ)音識(shí)別一直是語(yǔ)音識(shí)別大規(guī)模應(yīng)用的主要絆腳石，我們?nèi)绾卧谝恍┰肼晥?chǎng)景比較大的情況下，比如說(shuō)我們的馬路、咖啡廳，公共汽車，飛機(jī)場(chǎng)，以及會(huì)議室，大巴上等等，使得得到很高的識(shí)別精度，這是非常具有挑戰(zhàn)性的。

針對(duì)這個(gè)困境，我們上海交大和思必馳推出了一些解決策略，包括環(huán)境感知的深度模型以及神經(jīng)網(wǎng)絡(luò)的快速自適應(yīng)方法，它使得我們一般的深度模型可以對(duì)環(huán)境進(jìn)行一個(gè)實(shí)時(shí)的感知和自適應(yīng)調(diào)整，來(lái)提高實(shí)現(xiàn)系統(tǒng)性能，就像人耳一樣。另外我們也將極深卷積神經(jīng)網(wǎng)絡(luò)用于抗噪的語(yǔ)音識(shí)別得到巨大的系統(tǒng)性能的提升，在這個(gè)方面，我們?cè)诮衲暝谡Z(yǔ)音處理的權(quán)威期刊IEEE/ACM Transactions on Audio, Speech and Language Processing上發(fā)表了三篇期刊論文，大家有興趣的話也可以下載翻閱。這里值得一提的是其中兩個(gè)成果，一個(gè)成果是登上了IEEE/ACM Transactions on ASLP第11、12期的封面，另一個(gè)成果也上了這個(gè)期刊在近幾個(gè)月統(tǒng)計(jì)的最流行雜志的榜首。

下面我給大家看一下在語(yǔ)音識(shí)別的著名的數(shù)據(jù)庫(kù)，噪聲數(shù)據(jù)庫(kù)Aurora4世界最高水平的幾個(gè)研究機(jī)構(gòu)的系統(tǒng)性能的對(duì)比，最左邊是劍橋大學(xué)在2012年深度學(xué)習(xí)方法出來(lái)以前最好的系統(tǒng)是13.4%的一個(gè)錯(cuò)誤率，然后經(jīng)過(guò)這幾年的優(yōu)化，包括微軟2013年發(fā)表的12.4%的錯(cuò)誤率，到2014年IBM大概達(dá)到10%的錯(cuò)誤率，科大訊飛去年也是在2015年發(fā)表了一個(gè)是10.3%，也是在10%左右，我們?nèi)ツ昴甑滓驳玫?.7%的錯(cuò)誤率，我們可以看到在今年以前，大部分的研究機(jī)構(gòu)最好的識(shí)別性能錯(cuò)別率也在10%左右。

今年上半年，英國(guó)愛(ài)丁堡大學(xué)得到一個(gè)比較好的結(jié)果是8.7%的錯(cuò)誤率，但是在兩三個(gè)月以后，在今年的六七月份，我們達(dá)到了7.1%的錯(cuò)誤率。我們?cè)诳乖胝Z(yǔ)音識(shí)別上得到飛速的進(jìn)展。

過(guò)去的大部分語(yǔ)音識(shí)別系統(tǒng)的設(shè)計(jì)主要是針對(duì)一些單一環(huán)境、單一場(chǎng)景下進(jìn)行設(shè)計(jì)的，如何做多類別復(fù)雜場(chǎng)景下的通用的語(yǔ)音識(shí)別是非常困難的，比如說(shuō)在Youtube或者BBC上的一些數(shù)據(jù)，可以來(lái)自各種各樣的語(yǔ)境和場(chǎng)景，有新聞廣播、新聞采訪、音樂(lè)會(huì)、訪談、電影等等，如何在多預(yù)警下做成一個(gè)通用的魯棒的語(yǔ)音識(shí)別性能呢，是比較有挑戰(zhàn)性的。

在這個(gè)方面我們?nèi)ツ陞⒓恿擞捎?guó)BBC公司和EPSRC主辦的MGB挑戰(zhàn)賽，其中我們?cè)谒膫€(gè)單向上均列世界第一，且每個(gè)單向的成績(jī)均大幅領(lǐng)先第二名，包括語(yǔ)音識(shí)別、說(shuō)話人分割聚類、標(biāo)注對(duì)齊和時(shí)序漸進(jìn)語(yǔ)音識(shí)別等。

目前大部分語(yǔ)音識(shí)別的研究和應(yīng)用，主要是基于一些大語(yǔ)種，比如說(shuō)英語(yǔ)、漢語(yǔ)、阿拉伯語(yǔ)和法語(yǔ)等等，我們知道世界上一共有6900多種語(yǔ)言，如何快速的實(shí)現(xiàn)一套基于任何語(yǔ)言的語(yǔ)言識(shí)別系統(tǒng)是非常困難的，它也具有重大的戰(zhàn)略意義。包括美國(guó)IARPA這幾年的Babel計(jì)劃，以及之前DARPA的GALE計(jì)劃，考慮到中國(guó)的國(guó)情我們有56個(gè)民族，所以構(gòu)建一套多語(yǔ)言低數(shù)據(jù)資源下的語(yǔ)音識(shí)別系統(tǒng)是非常關(guān)鍵和具有實(shí)際價(jià)值的。

在這個(gè)方面我們也在公開(kāi)相同的數(shù)據(jù)環(huán)境下，搭建了相關(guān)系統(tǒng)，下圖是我們和美國(guó)約翰霍普金斯大學(xué)的性能對(duì)比，我們?cè)谙嗤瑪?shù)據(jù)集合上取得了一個(gè)更優(yōu)的一個(gè)策略。

目前大部分的語(yǔ)音識(shí)別的應(yīng)用，包括我們手機(jī)上看到的一些app的應(yīng)用，這些語(yǔ)音識(shí)別背后都是基于云端的在線的一些語(yǔ)音識(shí)別的服務(wù)。如何在離線的環(huán)境下，基于一些有限的硬件資源做一些低功耗的離線的實(shí)時(shí)的大智慧的連續(xù)性識(shí)別是非常困難的，但是如果這個(gè)困境能解決，也是可以將語(yǔ)音識(shí)別真正走向千家萬(wàn)戶，有巨大的推動(dòng)作用的。

在這個(gè)方面我們也提出了解決策略，我們通過(guò)用連接時(shí)續(xù)模型去取代隱含馬爾科夫模型，將系統(tǒng)性能在速度上提升了7倍多，同時(shí)我們將傳統(tǒng)的基于幀同步的解碼方案替換成音素同步解碼方案，將系統(tǒng)的實(shí)時(shí)率進(jìn)一步提升到20倍，相關(guān)的方法我們也今年發(fā)表在IEEE/ACM Transactions on ASLP的期刊上。下面有相關(guān)的論文的介紹，大家也可以下載。

幾個(gè)有用的開(kāi)源工具、參考書

它是由約翰霍普金斯Dan Povey領(lǐng)導(dǎo)的，由九家著名語(yǔ)音機(jī)構(gòu)13人核心工作組歷時(shí)兩年開(kāi)發(fā)完成的語(yǔ)音識(shí)別開(kāi)源軟件，我也是這13人核心工作組中唯一來(lái)自亞洲的成員，當(dāng)時(shí)我在清華大學(xué)，現(xiàn)在是在上海交通大學(xué)工作。然后這套工具包自2011年發(fā)布以來(lái)，下載量已經(jīng)超過(guò)了兩萬(wàn)多次，合著的論文目前也已經(jīng)被引用一千多次。

Kaldi的影響是巨大的，他是第一個(gè)完全用C++編寫的，基于加權(quán)有限狀態(tài)及理論的語(yǔ)音識(shí)別開(kāi)源軟件，它的模塊化與高度可擴(kuò)展性設(shè)計(jì)，詳細(xì)的說(shuō)明文檔，完備公開(kāi)的實(shí)力教程，也使得它受廣大開(kāi)發(fā)者喜好的一個(gè)主要的原因。他目前被業(yè)界廣泛采用作為標(biāo)準(zhǔn)工具，包括學(xué)術(shù)界的MIT、CMU、GHU、劍橋，國(guó)內(nèi)的清華、上海交大等等，工業(yè)界包括微軟、谷歌、IBM，F(xiàn)acebook等等，它的推出也極大推進(jìn)整個(gè)語(yǔ)音識(shí)別領(lǐng)域的發(fā)展。

它是語(yǔ)音識(shí)別歷史上第一個(gè)開(kāi)源的工具包，由劍橋大學(xué)的兩位教授，一個(gè)是劍橋大學(xué)的前副校長(zhǎng)Steve Young，還有一個(gè)是劍橋大學(xué)智能語(yǔ)音實(shí)驗(yàn)室的主任Phil Woodland教授領(lǐng)導(dǎo)開(kāi)發(fā)的一個(gè)開(kāi)源軟件工具包，這兩位也是英國(guó)皇家工程院的院士。Phil Woodland教授也是我當(dāng)時(shí)在劍橋做博士后研究時(shí)候的合作導(dǎo)師。

HTK目前有十多萬(wàn)的注冊(cè)用戶，引用次數(shù)也超過(guò)了五千多次，它所構(gòu)建的系統(tǒng)連續(xù)蟬聯(lián)了美國(guó)INST和DARPA評(píng)測(cè)的冠軍，可以說(shuō)在深度學(xué)習(xí)出來(lái)以前，基于HTK的一些系統(tǒng)統(tǒng)治了語(yǔ)音識(shí)別將近20年。這里值得一提比較有趣的事情是前面開(kāi)源工具包Kaldi的作者是Dan Povey，其中Dan Povey又是這個(gè)HTK工具包Phil Woodland教授的學(xué)生，所以我們可以說(shuō)，老師開(kāi)發(fā)了第一代語(yǔ)音識(shí)別開(kāi)源軟件，學(xué)生開(kāi)發(fā)了第二代語(yǔ)音識(shí)別開(kāi)源軟件。

在去年，HTK針對(duì)深度學(xué)習(xí)方法，也發(fā)布了它的3.5版本，它可以對(duì)通用的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行支持，此外還包括基于神經(jīng)網(wǎng)絡(luò)的自適應(yīng)技術(shù)，基于神經(jīng)網(wǎng)絡(luò)的鑒別性訓(xùn)練方法等等，其他包括準(zhǔn)基神經(jīng)網(wǎng)絡(luò)，GRU，LSTM等等也在發(fā)布的計(jì)劃中，使用HTK3.5所構(gòu)建的系統(tǒng)在這兩年也獲得多個(gè)世界性評(píng)測(cè)的冠軍，其中我在前面兩年也參與了如下的一些工作：包括2014年DARPA-BOLT的冠軍，2014年IARPA-Babel的冠軍，2015年IARPA-Babel的冠軍，以及2015年EPSRC-MGB的冠軍，還有今年的IARPA-Babel的亞軍等等。我也參與了其中幾個(gè)比賽系統(tǒng)的構(gòu)建。

這是一套語(yǔ)言模型的開(kāi)源工具軟件，也是由劍橋大學(xué)開(kāi)發(fā)去年發(fā)布的，我也是合著者之一。它是對(duì)遞歸神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型進(jìn)行了一個(gè)很好的支持，相比之前捷克布爾諾理工發(fā)布的RNNLM版本，它可以很好的用GPU進(jìn)行加速訓(xùn)練，同時(shí)它又可以支持快速的訓(xùn)練和評(píng)估的算法和自適應(yīng)技術(shù)。此外這套工具包又對(duì)HTK和Kaldi兩套開(kāi)源軟件進(jìn)行了很好的適配，可以對(duì)兩個(gè)系統(tǒng)的Lattice進(jìn)行重打分和重新解碼計(jì)算，這套開(kāi)源工具包也被劍橋應(yīng)用于近期的各個(gè)比賽的系統(tǒng)，得到了很好的一個(gè)成績(jī)。

目前比較流行的使用范圍比較廣的，包括微軟的CNTK，谷歌的Tensorflow，以及由DMLC維護(hù)的mxnet等等，還有之前包括來(lái)自蒙特利爾大學(xué)的Theano，來(lái)自伯克利的Caffe以及來(lái)自NYU的Torch等等。每套工具都有各自的優(yōu)勢(shì)，不能說(shuō)孰優(yōu)孰劣，這完全根據(jù)大家的各自的興趣以及開(kāi)發(fā)的語(yǔ)言的喜歡去選擇。

這里我想重點(diǎn)介紹的是微軟的CNTK，也是目前我們上海交大和思必馳所使用的一套深度學(xué)習(xí)的開(kāi)源軟件。它是由微軟的雷德蒙研究院黃學(xué)東博士領(lǐng)導(dǎo)開(kāi)發(fā)的一套計(jì)算網(wǎng)絡(luò)工具包，它可以很好的支持對(duì)各種神經(jīng)網(wǎng)絡(luò)，對(duì)各種新奇算法訓(xùn)練的支持，此外在CNTK對(duì)Theano、Tensorflow、torch和Caffe等等的計(jì)算速度的對(duì)比方面，CNTK無(wú)論在單GPU，或是單機(jī)多卡的情況下，還是多機(jī)多卡的情況下，在速度上都有一個(gè)明顯的性能的優(yōu)勢(shì)。

這是由美國(guó)微軟雷德蒙研究院首席科學(xué)家俞棟老師和鄧力老師撰寫的一本關(guān)于深度學(xué)習(xí)和語(yǔ)音識(shí)別相結(jié)合的書籍，同時(shí)這本書中又對(duì)深度學(xué)習(xí)和語(yǔ)音識(shí)別在一些產(chǎn)品級(jí)應(yīng)用上的一些細(xì)節(jié)做了一些案例的介紹，它的英文版已經(jīng)與去年由斯普林格出版社正式出版。此外我和俞凱教授兩個(gè)人對(duì)這本英文版進(jìn)行了翻譯，中文譯本于今年由電子工業(yè)出版社出版，大家也可以在京東或者亞馬遜上進(jìn)行購(gòu)買。

思必馳和上海交大聯(lián)合實(shí)驗(yàn)室

思必馳是國(guó)內(nèi)為數(shù)不多的擁有完整知識(shí)產(chǎn)權(quán)的語(yǔ)音公司，從縱向上看，它是國(guó)內(nèi)僅有的兩家擁有全面的語(yǔ)音技術(shù)的公司之一，我們從2007年劍橋創(chuàng)立至今已經(jīng)走過(guò)了近十年，從基本的大數(shù)據(jù)開(kāi)始做積累，從識(shí)別引擎開(kāi)始做，慢慢做到語(yǔ)音合成，再到語(yǔ)音識(shí)別++，再到現(xiàn)在整體的語(yǔ)音交互系統(tǒng)，我們?cè)谡Z(yǔ)音這條路上不斷的深入下去，在2015年的年初，思必馳也首個(gè)提出了認(rèn)知智能概念層次。

從橫向上看，思必馳是目前國(guó)內(nèi)唯一一家只針對(duì)智能硬件領(lǐng)域提供語(yǔ)音支持的公司，我們只針對(duì)智能車載、家居、機(jī)器人三個(gè)領(lǐng)域提供解決方案，保證技術(shù)的垂直性和適用性，我們自己不做2C的產(chǎn)品，但是向企業(yè)提供純軟的解決方案和軟硬一體化的解決方案。我們是一個(gè)技術(shù)型的AI公司，盡量根據(jù)客戶的不同需求去提供各種實(shí)用且合適的語(yǔ)音方案。純軟的解決方案，即我們的AIOS，思必馳人工智能操作系統(tǒng)，去年10月也率先推出了AIOS for Car，在后端市場(chǎng)上占有率達(dá)到60%，其中智能后視鏡在70%左右，HUD車載占據(jù)了大概80%，同時(shí)和小鵬汽車、智車優(yōu)行等互聯(lián)網(wǎng)汽車也簽署了合作。此外我們還有軟硬一體化的解決方案，包括國(guó)內(nèi)首款量產(chǎn)的環(huán)形6+1遠(yuǎn)場(chǎng)麥克風(fēng)陣列，四麥線性方案，以及和君正、慶科合作推出帶語(yǔ)音功能的芯片模組。

思必馳目前已經(jīng)快速成長(zhǎng)為這個(gè)領(lǐng)域的No.1，目前思必馳的業(yè)務(wù)合作領(lǐng)域主要專注在智能硬件領(lǐng)域，包括車載、家居、機(jī)器人。目前在智能車載中，思必馳還主要是在后裝市場(chǎng)，是阿里YunOS的唯一戰(zhàn)略合作伙伴，所有用YunOS的車載產(chǎn)品都用的是思必馳語(yǔ)音，思必馳目前后裝市場(chǎng)占有率是第一，60%左右，智能后視鏡領(lǐng)域約為70%，HUD約為80%。在智能家居領(lǐng)域，包括音箱、電視、空調(diào)、油煙機(jī)等等，以及前兩天小米剛發(fā)布的小米音箱也是我們最新的合作案例，今年年底或明年年初，我們還有幾款重要的合作客戶產(chǎn)品要上市，敬請(qǐng)大家期待。在家居領(lǐng)域，思必馳還有上升空間，目前在第二。而智能機(jī)器人領(lǐng)域，由于生態(tài)尚早，現(xiàn)在機(jī)器人產(chǎn)品龍蛇混雜，但未來(lái)潛力大，我們主要是在與服務(wù)型機(jī)器人合作，塑造典型的精品案例，包括大華小樂(lè)機(jī)器人、360小巴迪、東方網(wǎng)力、金剛蟻的小憶機(jī)器人、小蘿卜機(jī)器人等，都是我們的合作案例。

我們除了在不斷深入語(yǔ)音技術(shù)研發(fā)以外，還在做的一件事情就是打通整個(gè)后端服務(wù)，從導(dǎo)航到音樂(lè)，到資訊搜索，到個(gè)人管家甚至O2O，通過(guò)語(yǔ)音交互，讓用戶和第三方內(nèi)容無(wú)縫鏈接起來(lái)，提供一站式的產(chǎn)業(yè)化服務(wù)，配合合作客戶一起打造更實(shí)用，更有趣的人機(jī)交互體驗(yàn)，在未來(lái)很長(zhǎng)一段時(shí)間內(nèi)，這都將是我們堅(jiān)持不變的理念和方向。（本文獨(dú)家首發(fā)鈦媒體，根據(jù)思必馳上海交大聯(lián)合實(shí)驗(yàn)室副主任、上海交通大學(xué)計(jì)算機(jī)科學(xué)與工程系助理教授錢彥旻在鈦坦白上的分享整理）

鈦坦白第27期，也是“AI已來(lái)”系列第一期，六位鈦客的精彩分享已經(jīng)結(jié)束，干貨會(huì)陸續(xù)發(fā)布：http://www.chcmb.cn/tag/1508094

【預(yù)告】鈦坦白第28期：AI已來(lái)，讓機(jī)器看懂這個(gè)世界

本文系作者葛佳音授權(quán)鈦媒體發(fā)表，并經(jīng)鈦媒體編輯，轉(zhuǎn)載請(qǐng)注明出處、作者和本文鏈接。
本內(nèi)容來(lái)源于鈦媒體鈦度號(hào)，文章內(nèi)容僅供參考、交流、學(xué)習(xí)，不構(gòu)成投資建議。
想和千萬(wàn)鈦媒體用戶分享你的新奇觀點(diǎn)和發(fā)現(xiàn)，點(diǎn)擊這里投稿。創(chuàng)業(yè)或融資尋求報(bào)道，點(diǎn)擊這里。

發(fā)表評(píng)論

0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求，請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論

請(qǐng) 登錄后輸入評(píng)論內(nèi)容

小事回收站
最近不是有篇文章說(shuō)，TX小馬哥嫌語(yǔ)音搜索私密性差不想做，這又怎么解決呢？
回復(fù) 2016.12.08 · via pc
唐唐_Athid
厲害??
回復(fù) 2016.12.07 · via iphone

快報(bào)