技術簡介 |
整體降噪系統架構圖如技術圖片一所示,主要分為兩種神經網路類型,第一個神經網路模型的類別為噪音分類器(NC),第二個神經網路模型的類別為深度除噪自動編碼器(DDAE),兩種神經網路皆使用輕量化的深度學習網路架構,可放置在嵌入式系統上運行。噪音分類器的功能主要是用來區分語音中所夾帶的噪音種類,透過這個神經網路模型,就能預先訓練11種日常常見的噪音,包含飛機客艙聲、公車內行駛聲、火車內行駛聲、小客車內行駛聲、路上車流聲、施工鑽地聲、群眾拍手聲、群眾聊天聲、群眾笑聲、小孩哭聲、白噪音。未來若需要對更多的噪音類別進行分類也能夠透過收集新的噪音資料並重新訓練神經網路參數來達成。此外一個系統中總共包含12個深度除噪自動編碼器,其中的11個噪音相關(Noise Dependent, ND)深度除噪自動編碼器對應到各自的噪音類別,能夠針對某一種噪音環境達到降噪的功能,剩餘的一個非噪音相關(Noise Independent, NI)深度除噪自動編碼器則是對未包含在11種噪音類別的噪音進行降噪,降噪效果比前11個深度除噪自動編碼器效果差,但是能夠適應比較多種噪音的情況。 整體降噪流程為下,首先嵌入式裝置將麥克風收取到的音訊經過梅爾倒頻譜係數轉換後輸入噪音分類器辨識當前語音中夾帶的噪音類別,接著進行信心程度運算後判斷各個類別預測的機率是否超過閥值,若是超過閥值則選擇對應到的深度除噪自動編碼器進行降噪。深度除噪編碼器會根據神經網路的參數對經過短時傅立葉轉換後的聲音特徵進行重新編碼,並且輸出降噪過後的短時傅立葉特徵,最後將短時傅立葉特徵進行反轉換後得到降噪過後的語音訊號。 |