語音是人類交流的重要方式,但說話人的健康狀態(tài)(例如神經(jīng)疾病、癌癥、外傷等原因?qū)е碌穆曇粽系K)和周圍環(huán)境(噪音干擾、傳播介質(zhì))往往會影響聲音的傳輸和識別。研究人員一直在改進(jìn)語音識別和交互技術(shù)以應(yīng)對微弱的聲源或嘈雜的環(huán)境。
傳統(tǒng)的硬件語音識別系統(tǒng)通過麥克風(fēng)陣列進(jìn)行收音,然后將原始聲音信號轉(zhuǎn)化為數(shù)字信號傳輸?shù)接?jì)算機(jī)中處理。這樣做最大優(yōu)點(diǎn)就是成本低、體積小。對于傳統(tǒng)的硬件語音識別系統(tǒng)來說,主要面臨著兩個(gè)問題:首先是噪音環(huán)境下效果不佳;其次是語音識別效果受環(huán)境因素影響較大。為了解決上述問題,研究者們嘗試了很多種方法,主要有基于聲學(xué)模型和語音識別模型的兩大類。
聲學(xué)模型通常是用音素、語音單元等不同的聲學(xué)參數(shù)來表示不同的語音信息,其中包括對基音、頻率、時(shí)長和速度等特征的描述。
而隨著深度學(xué)習(xí)算法的出現(xiàn),更多學(xué)者開始嘗試采用深度神經(jīng)網(wǎng)絡(luò)算法進(jìn)行語音識別。但是缺點(diǎn)也很明顯,深度學(xué)習(xí)算法在語音識別領(lǐng)域的應(yīng)用主要包括以下幾個(gè)方面:
(1)語音增強(qiáng):針對噪聲環(huán)境下的語音識別問題,通過端點(diǎn)檢測等技術(shù)提取到不同信噪比環(huán)境下的特征向量,然后將特征向量輸入到深度神經(jīng)網(wǎng)絡(luò)中訓(xùn)練,最終得到一個(gè)比較好的降噪性能。
(2)語音識別:這里主要指針對特定語種進(jìn)行的實(shí)時(shí)文本語音識別問題,其原理是在網(wǎng)絡(luò)中構(gòu)建一個(gè)多層卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型,將輸入的音頻流分解為多個(gè)特征向量,然后利用這些特征向量和訓(xùn)練好的模型進(jìn)行訓(xùn)練并輸出一個(gè)更優(yōu)結(jié)果。
(3)語音檢索:其原理是將文本語音序列進(jìn)行分詞并分別與預(yù)設(shè)分類庫中的關(guān)鍵詞進(jìn)行匹配。
Copyright (?) 2020 深圳唯創(chuàng)知音電子有限公司 版權(quán)所有 地址:深圳市寶安區(qū)福永街道大洋路90號中糧福安機(jī)器人智造產(chǎn)業(yè)園6棟2/3層 備案號:粵ICP備15026214號