-->
請(qǐng)您遵循相關(guān)法律法規(guī),避免再次出現(xiàn)類(lèi)似問(wèn)題
如有任何疑問(wèn),請(qǐng)聯(lián)系support@tmtpost.com
關(guān)閉
第三課:語(yǔ)音識(shí)別技術(shù)的研究進(jìn)展
小欣:這節(jié)課,溫老師會(huì)為我們講解語(yǔ)音識(shí)別技術(shù)的研究進(jìn)展。
溫正棋:有了前端處理以后,反饋回來(lái)的信息會(huì)加到訓(xùn)練語(yǔ)音識(shí)別模型。語(yǔ)音識(shí)別主要是建立一個(gè)聲學(xué)參數(shù)到發(fā)音單元的映射模型或者叫判別模型,現(xiàn)在的方法從傳統(tǒng)的GMM-HMM模型到DNN-HMM混合模型,再到最新的端到端的CTC相關(guān)的。
語(yǔ)音信號(hào)經(jīng)過(guò)特征提取得到聲學(xué)特征再通過(guò)聲學(xué)特征訓(xùn)練得到聲學(xué)模型,聲學(xué)模型結(jié)合語(yǔ)言模型以及發(fā)音辭典構(gòu)建聲碼器以后,最終識(shí)別出文本。
GMM用來(lái)對(duì)每個(gè)狀態(tài)進(jìn)行建模,HMM描述每個(gè)狀態(tài)之間的轉(zhuǎn)移概率,這樣就構(gòu)建了一個(gè)音素或三因子的HMM模型建模單元。
GMM訓(xùn)練速度相對(duì)較快,而且GMM聲學(xué)模型可以做得比較小可以移植到嵌入式平臺(tái)上,其缺點(diǎn)是GMM沒(méi)有利用上下文信息同時(shí)GMM不能學(xué)習(xí)深層的非線性特征變換,建模能力有限。
隨著深度神經(jīng)網(wǎng)絡(luò)的興起,深度神經(jīng)網(wǎng)絡(luò)也應(yīng)用到了語(yǔ)音識(shí)別里面聲學(xué)建模,主要是替換了GMM-HMM模型里的GMM模型,上端仍然是HMM模型加狀態(tài)轉(zhuǎn)移。
而下端比如說(shuō)在GMM模型里面可能有接近1萬(wàn)個(gè)狀態(tài),這個(gè)狀態(tài)可以通過(guò)DNN模型預(yù)測(cè)出每個(gè)的概率,輸出的就是一個(gè)三因子。我們兩者結(jié)合起來(lái)構(gòu)建基于DNN-HMM的聲學(xué)模型。
DNN有本身的優(yōu)點(diǎn)。比如DNN能利用的上下文系統(tǒng)在輸入端進(jìn)行擴(kuò)幀同時(shí)又非線性變換可以學(xué)習(xí)到,但DNN不能利用歷史信息捕捉當(dāng)前的任務(wù),因?yàn)閿U(kuò)幀是有限的不可能無(wú)限擴(kuò)下去,所以他輸入的歷史信息還是有限的。
因此自然而然的有了基于RNN的混合聲學(xué)模型將DNN模塊替換成RNN模塊,RNN能夠有效的對(duì)歷史信息進(jìn)行建模并且能夠?qū)⒏嗟臍v史信息保存下來(lái),可于將來(lái)的預(yù)測(cè)。
但是在RNN訓(xùn)練過(guò)程中會(huì)存在梯度消失和梯度膨脹的問(wèn)題。梯度膨脹可以在訓(xùn)練過(guò)程中加一些約束來(lái)實(shí)現(xiàn),當(dāng)梯度超過(guò)一定值以后設(shè)定一個(gè)固定值,但是梯度消失很難去把握。
因此有很多方法解決這種問(wèn)題,比較簡(jiǎn)單的一個(gè)方法是將里面的RNN單元變成長(zhǎng)短時(shí)記憶模型LSTM,這樣長(zhǎng)短時(shí)記憶模型能夠?qū)⒂洃浵?wèn)題給很好的解決但這樣會(huì)使計(jì)算量顯著增加,這也是在構(gòu)建聲學(xué)模型中需要考慮的問(wèn)題。
CNN用于聲學(xué)模型建模。有一個(gè)比較老的方法是在DNN的前端加兩層的CNN變換這樣只對(duì)參數(shù)做了一定的非線性變換,變化完后輸入DNN和LSTM里面。但是隨著非常深的CNN在圖象識(shí)別里面成功應(yīng)用這些也被運(yùn)用到了聲學(xué)模型中,比如說(shuō)谷歌、微軟、IBM均在2016年發(fā)表成果證明非常深的CNN模型已經(jīng)超越其他深度神經(jīng)網(wǎng)絡(luò)的模型,其詞錯(cuò)率是最低的。
CTC本身是一個(gè)訓(xùn)練準(zhǔn)則并不算聲學(xué)模型。在DNN輸出中每個(gè)phone占用的幀數(shù)可能有十幀二十幀因?yàn)樗皇且粋€(gè)尖峰,但CTC會(huì)把它變成一個(gè)尖峰。
CTC可以將每一幀變成一個(gè)senones或者對(duì)應(yīng)一個(gè)因數(shù),但每個(gè)因數(shù)只需幾幀就可以了。在解碼的時(shí)候可以把一些blank幀給去掉,這樣可以顯著的增加解碼速度。
減少解碼幀有兩種方法:一種是通過(guò)減幀、跳幀的方法,另一種在解碼過(guò)程中有一個(gè)beam。特別是遇到beam的時(shí)候把并值減少,我們的實(shí)驗(yàn)結(jié)果跳幀會(huì)比較好。
在NLP中應(yīng)用較多的Attention端對(duì)端的聲學(xué)模型能夠從RNN歷史信息中挑選出比較重要的信息對(duì)詞學(xué)進(jìn)行建模,目前的準(zhǔn)確率比較低這應(yīng)該是一種趨勢(shì),至少在NLP中證明了它是比較成功的。
總結(jié)起來(lái)現(xiàn)在的語(yǔ)音識(shí)別模型更新特別快,最重要的核心內(nèi)容就是數(shù)據(jù)。如果數(shù)據(jù)量足夠大做出一個(gè)好的結(jié)果還是比較容易的,而且我們現(xiàn)在語(yǔ)音識(shí)別核心模塊主要是在一些解碼模塊上、調(diào)優(yōu)上,這相當(dāng)于是一種藝術(shù)。
小欣:下節(jié)課,溫老師會(huì)為我們講解語(yǔ)音合成技術(shù)的研究進(jìn)展。
【版權(quán)歸鈦媒體所有,未經(jīng)許可不得轉(zhuǎn)載】

注冊(cè)郵箱未驗(yàn)證
我們已向下方郵箱發(fā)送了驗(yàn)證郵件,請(qǐng)查收并按提示驗(yàn)證您的郵箱。
如果您沒(méi)有收到郵件,請(qǐng)留意垃圾郵件箱。
賬號(hào)合并
經(jīng)檢測(cè),你是“鈦媒體”和“商業(yè)價(jià)值”的注冊(cè)用戶(hù)?,F(xiàn)在,我們對(duì)兩個(gè)產(chǎn)品因進(jìn)行整合,需要您選擇一個(gè)賬號(hào)用來(lái)登錄。無(wú)論您選擇哪個(gè)賬號(hào),兩個(gè)賬號(hào)的原有信息都會(huì)合并在一起。對(duì)于給您造成的不便,我們深感歉意。
Oh! no
您是否確認(rèn)要?jiǎng)h除該條評(píng)論嗎?