技術名稱 基於人工智慧之語音增強系統
計畫單位 中央研究院
計畫主持人 曹昱
技術簡介
語音訊號是人與人、人與機器最自然、最便利的溝通介面。對人與人而言,我們可以基於語音訊號與其他人溝通、了解對方的情緒、身分、性別、甚至於生理狀況。對人與機器而言,我們可以利用語音當作輸入,直接對機器下達指令,或是查詢需要的資訊。近年來隨著科技的進步,有許多與語音相關的應用衍生出來,基於這些應用,人們可以更自由地透過語音與其他人或是機器溝通。然而在實際使用情況下,語音訊號很容易受到環境中的各種干擾影響,造成語音品質降低,進而影響使用者對於語音應用的感受。這些干擾源可概分為加成性噪聲,通道失真(例如由品質不佳的麥克風造成)和回音/混響(例如在浴室或隧道等不同的空間中產生的聲音現象)等。由於這些干擾通常同時出現,有效地消除語音中的干擾以得到乾淨語音訊號,進而提升語音訊號的品質以及理解度,是一項極具挑戰,但又是非常重要的任務,我們通常稱這個任務為語音增強。
在過去幾年中,深度學習已廣泛用於許多不同的應用中。由於其深層結構,深度學習模型可以有效地擷取代表特徵,以實現分類或回歸任務。例如在圖像識別、語音識別、對象檢測和自然語言處理等領域中,已經證實基於深度學習的技術要優於傳統方法。與分類任務不同,回歸任務的輸出為連續的數值,而語音增強是語音處理中的重要回歸任務之一。基於深度學習的語音增強系統可以更加有效地表示由帶噪語音到乾淨語音的複雜變換;它們也能更為準確地測量出濾波器所需的參數,以濾除帶噪語音中的噪音成份。當有足量可用的訓練語料時,基於深度學習的語音增強技術能提供比傳統機器學習為主的語音增強方法,相當或甚至更有效的降噪能力。類神經網路及其衍生模型則是深度學習法的主流技術,被廣泛運用在訓練數據中有效地自動學習資料背後隱含的統計分布,以實現語音增強系統。一般而言,深層類神經網路(具有多個隱藏層)的學習能力優於淺層類神經網路(具有單個或較少的隱藏層),因深層類神經網路能學到更為複雜的變換方程,但也更難有效地讓機器學習。為了能更有效地獲得深層類神經網路模型,資料科學家們已提出了各式的演算法,基本策略是先進行預訓練(粗略地訓練),再加上精細地調整。藉由這樣的策略,較能使深度學習方法有效地學習,以獲得更優異的語音增強系統效能,與更好的語音特徵。
科學突破性
我們提出基於深度學習理論的語音除噪演算法,有效提昇人與人、人與機器之間的溝通效率。我們特別針對強化理解力及語音品質的目標函數,研發端對端語音波形增強,並且整合深度及總體學習演算法及環境調適演算法,用來減輕在真實應用情境上可能遭遇到的訓練、測試環境不匹配問題,進一步提升語音除噪效能。
產業應用性
近年來由於高齡人口比率持續升高以及青少年濫用隨身音響設備的情形加劇,進而導致聽力受損或喪失之人口逐漸增多。為因應此現象,聽覺輔具的研究成為近日全球矚目的前瞻性課題。曹昱博士開發出的除噪演算法可以應用於聽覺輔具(人工電子耳、助聽器、輔聽器、集音器等),對國內聲學相關產業做出更多實質的貢獻。
關鍵字 語音增強系統 深度學習 語音理解度 端到端的時域語音增強系統 聽覺輔具 語音理解度 語音辨識 人工電子耳 助聽器 語音調頻系統
備註
基於這部分的研究成果,我們在國際知名研討會 APSIPA 2019 以及 Interspeech 2020 發表Tutorial Lectures,內容如下:
https://www.citi.sinica.edu.tw/papers/yu.tsao/7026-F.pdf
  • 聯絡人
  • 曹昱
其他人也看了