技術名稱 提升構音障礙語音轉換效益之資料擴增技術
計畫單位 國立中正大學
計畫主持人 賴穎暉
技術簡介
DVC 3.1用來協助患者能說出清晰語音,它運用文字轉語音(text-to-speech)與多對多語音轉換模型生成大量類患者及目標語者語料。隨後,再透過語音後驗概率特徵(PPGs)及Gated CNN模型來對患者語音特徵進行轉換。最後,再透過WaveGlow技術將轉換後的特徵轉成語音給予聆聽者聆聽。
科學突破性
以AI技術實踐構音障礙語音轉換系統來看,訓練語料不足及語者變異是重要的挑戰。我們邀請二位患者測試DVC 3.1系統,其結果證明在不增加患者負擔下能可讓原始語音辨識度由(17.81及40.14)提升至(80.24及83.44),並比其它二個baseline系統有更佳的語音轉換能力表現。
產業應用性
本研究提出語音增量技術來試圖減少患者錄音負擔並提升溝通輔具辨識效益,其提出之語音資料增量方法能增加訓練資料之多樣性,進而提升構音障礙輔助系統之辨識效率。目前此技術已成功技轉給予產業進行DVC產品開發中,而此技術也將可以延伸於各種語音應用之產品來提升系統效益及減少資料錄製成本。
關鍵字 語音溝通輔具 資料增量 語音轉換 文字轉語音 人工智慧 聽覺輔具 醫學工程 噪音消除 自動語音辨識 聲碼器
  • 聯絡人
  • 林慧雅
其他人也看了