亚州成人av在线播放,国产色色在线观看

第三課：語(yǔ)音識(shí)別技術(shù)的研究進(jìn)展

溫正棋 / 人機(jī)交互技術(shù)的發(fā)展

第三課：語(yǔ)音識(shí)別技術(shù)的研究進(jìn)展

小欣：這節(jié)課，溫老師會(huì)為我們講解語(yǔ)音識(shí)別技術(shù)的研究進(jìn)展。

溫正棋：有了前端處理以后，反饋回來(lái)的信息會(huì)加到訓(xùn)練語(yǔ)音識(shí)別模型。語(yǔ)音識(shí)別主要是建立一個(gè)聲學(xué)參數(shù)到發(fā)音單元的映射模型或者叫判別模型，現(xiàn)在的方法從傳統(tǒng)的GMM-HMM模型到DNN-HMM混合模型，再到最新的端到端的CTC相關(guān)的。

語(yǔ)音信號(hào)經(jīng)過(guò)特征提取得到聲學(xué)特征再通過(guò)聲學(xué)特征訓(xùn)練得到聲學(xué)模型，聲學(xué)模型結(jié)合語(yǔ)言模型以及發(fā)音辭典構(gòu)建聲碼器以后，最終識(shí)別出文本。

GMM用來(lái)對(duì)每個(gè)狀態(tài)進(jìn)行建模，HMM描述每個(gè)狀態(tài)之間的轉(zhuǎn)移概率，這樣就構(gòu)建了一個(gè)音素或三因子的HMM模型建模單元。

GMM訓(xùn)練速度相對(duì)較快，而且GMM聲學(xué)模型可以做得比較小可以移植到嵌入式平臺(tái)上，其缺點(diǎn)是GMM沒(méi)有利用上下文信息同時(shí)GMM不能學(xué)習(xí)深層的非線性特征變換，建模能力有限。

隨著深度神經(jīng)網(wǎng)絡(luò)的興起，深度神經(jīng)網(wǎng)絡(luò)也應(yīng)用到了語(yǔ)音識(shí)別里面聲學(xué)建模，主要是替換了GMM-HMM模型里的GMM模型，上端仍然是HMM模型加狀態(tài)轉(zhuǎn)移。

而下端比如說(shuō)在GMM模型里面可能有接近1萬(wàn)個(gè)狀態(tài)，這個(gè)狀態(tài)可以通過(guò)DNN模型預(yù)測(cè)出每個(gè)的概率，輸出的就是一個(gè)三因子。我們兩者結(jié)合起來(lái)構(gòu)建基于DNN-HMM的聲學(xué)模型。

DNN有本身的優(yōu)點(diǎn)。比如DNN能利用的上下文系統(tǒng)在輸入端進(jìn)行擴(kuò)幀同時(shí)又非線性變換可以學(xué)習(xí)到，但DNN不能利用歷史信息捕捉當(dāng)前的任務(wù)，因?yàn)閿U(kuò)幀是有限的不可能無(wú)限擴(kuò)下去，所以他輸入的歷史信息還是有限的。

因此自然而然的有了基于RNN的混合聲學(xué)模型將DNN模塊替換成RNN模塊，RNN能夠有效的對(duì)歷史信息進(jìn)行建模并且能夠?qū)⒏嗟臍v史信息保存下來(lái)，可于將來(lái)的預(yù)測(cè)。

但是在RNN訓(xùn)練過(guò)程中會(huì)存在梯度消失和梯度膨脹的問(wèn)題。梯度膨脹可以在訓(xùn)練過(guò)程中加一些約束來(lái)實(shí)現(xiàn)，當(dāng)梯度超過(guò)一定值以后設(shè)定一個(gè)固定值，但是梯度消失很難去把握。

因此有很多方法解決這種問(wèn)題，比較簡(jiǎn)單的一個(gè)方法是將里面的RNN單元變成長(zhǎng)短時(shí)記憶模型LSTM，這樣長(zhǎng)短時(shí)記憶模型能夠?qū)⒂洃浵?wèn)題給很好的解決但這樣會(huì)使計(jì)算量顯著增加，這也是在構(gòu)建聲學(xué)模型中需要考慮的問(wèn)題。

CNN用于聲學(xué)模型建模。有一個(gè)比較老的方法是在DNN的前端加兩層的CNN變換這樣只對(duì)參數(shù)做了一定的非線性變換，變化完后輸入DNN和LSTM里面。但是隨著非常深的CNN在圖象識(shí)別里面成功應(yīng)用這些也被運(yùn)用到了聲學(xué)模型中，比如說(shuō)谷歌、微軟、IBM均在2016年發(fā)表成果證明非常深的CNN模型已經(jīng)超越其他深度神經(jīng)網(wǎng)絡(luò)的模型，其詞錯(cuò)率是最低的。

CTC本身是一個(gè)訓(xùn)練準(zhǔn)則并不算聲學(xué)模型。在DNN輸出中每個(gè)phone占用的幀數(shù)可能有十幀二十幀因?yàn)樗皇且粋€(gè)尖峰，但CTC會(huì)把它變成一個(gè)尖峰。

CTC可以將每一幀變成一個(gè)senones或者對(duì)應(yīng)一個(gè)因數(shù)，但每個(gè)因數(shù)只需幾幀就可以了。在解碼的時(shí)候可以把一些blank幀給去掉，這樣可以顯著的增加解碼速度。

減少解碼幀有兩種方法：一種是通過(guò)減幀、跳幀的方法，另一種在解碼過(guò)程中有一個(gè)beam。特別是遇到beam的時(shí)候把并值減少，我們的實(shí)驗(yàn)結(jié)果跳幀會(huì)比較好。

在NLP中應(yīng)用較多的Attention端對(duì)端的聲學(xué)模型能夠從RNN歷史信息中挑選出比較重要的信息對(duì)詞學(xué)進(jìn)行建模，目前的準(zhǔn)確率比較低這應(yīng)該是一種趨勢(shì)，至少在NLP中證明了它是比較成功的。

總結(jié)起來(lái)現(xiàn)在的語(yǔ)音識(shí)別模型更新特別快，最重要的核心內(nèi)容就是數(shù)據(jù)。如果數(shù)據(jù)量足夠大做出一個(gè)好的結(jié)果還是比較容易的，而且我們現(xiàn)在語(yǔ)音識(shí)別核心模塊主要是在一些解碼模塊上、調(diào)優(yōu)上，這相當(dāng)于是一種藝術(shù)。

小欣：下節(jié)課，溫老師會(huì)為我們講解語(yǔ)音合成技術(shù)的研究進(jìn)展。

【版權(quán)歸鈦媒體所有，未經(jīng)許可不得轉(zhuǎn)載】