阿里巴巴達摩院機器智能實驗室開源了新一代語音識別模型DFSMN,將全球語音識別準確率紀錄提高至96.04%。這一數據測試基于世界最大的免費語音識別數據庫LibriSpeech。
對比目前業界使用最為廣泛的LSTM模型,DFSMN模型訓練速度更快、識別準確率更高。采用全新DFSMN模型的智能音響或智能家居設備,相比前代技術深度學習訓練速度提到了3倍,語音識別速度提高了2倍。
著名語音識別專家,西北工業大學教授謝磊表示:“阿里此次開源的DFSMN模型,在語音識別準確率上的穩定提升是突破性的,是近年來深度學習在語音識別領域最具代表性的成果之一,對全球學術界和AI技術應用都有巨大影響。”
語音識別技術一直都是人機交互技術的重要組成部分。有了語音識別技術,機器就可以像人類一樣聽懂說話,進而能夠思考、理解和反饋。近幾年隨著深度學習技術的使用,基于深度神經網絡的語音識別系統性能獲得了極大的提升,開始走向實用化?;谡Z音識別的語音輸入、語音轉寫、語音檢索和語音翻譯等技術得到了廣泛的應用。
目前主流的語音識別系統普遍采用基于深度神經網絡和隱馬爾可夫(Deep Neural Networks-Hidden Markov Model,DNN-HMM)的聲學模型,其模型結構如圖 1所示。聲學模型的輸入是傳統的語音波形經過加窗、分幀,然后提取出來的頻譜特征,如 PLP, MFCC 和 FBK等。而模型的輸出一般采用不同粒度的聲學建模單元,例如單音素 (mono-phone)、單音素狀態、綁定的音素狀態 (tri-phonestate) 等。從輸入到輸出之間可以采用不同的神經網絡結構,將輸入的聲學特征映射得到不同輸出建模單元的后驗概率,然后再結合HMM進行解碼得到最終的識別結果。
項目地址:https://github.com/tramphero/kaldi