技術名稱 情緒導向之智慧音箱
計畫單位 正修學校財團法人正修科技大學
計畫主持人 蘇家輝
技術簡介
本技術主要包含兩大部分:音樂情緒辨識與智慧音箱播放裝置。系統會透過特殊演算法辨識音樂情緒。主要功能分為三大類:對話控制音箱程序、分析使用者情緒字詞、播放相對應情緒音樂,透過Olami線上提供的語音轉文字服務做到「分析使用者情緒字詞」,分析後會做相對應的回應或「播放相對應情緒音樂」。最主要的構想概念是來自於生物科學中DNA的基因定序,希望能發展一音樂DNA挖掘技術,藉由挖掘的基因進行音樂辨識與搜尋,達到高效能與高效率的要求。為達成預期的目標,本計畫將利用資料探勘技術、機率統計模型與基因序列比對技術來分析這些音樂資料特徵;資料探勘技術可以從大數據中挖掘出有用的資訊,機率統計模型可釐清音樂特徵與語意間的多樣性,基因序列比對技術可兼顧基因的順序性與特殊性。透過上述技術,找出藏在音樂DNA中的特殊基因作音樂辨識與搜尋。此專案主要有4個重點,分別是:音樂DNA的產生;利用產生的DNA進行音樂辨識;將音樂辨識與音樂搜尋技術應用在實際智慧音箱系統上,如:個人手持播放器、線上音樂搜尋服務業者等應用。
音樂DNA產生技術為本計畫之基礎,首先會將資料庫中所有已知歌曲之音樂訊號轉成多種音樂低階特徵值,接著會透過統計運算得到兩種結果:一是以每首歌為單位,產生一個向量;一是以每秒為單位,產生一個向量。之所以會有兩種結果,是因為本計畫希望釐清音樂基因的表現在整首歌較好,還是在時間序列上較佳,這是一個重要的觀點,需要經由實驗釐清。接著,當產生完向量後,系統會將整首歌做分群並編碼或每首歌中每秒音樂做分群並編碼,以整首歌為單位的話,一種特徵代表一種染色體,將所有已知的音樂分完群之後,一群即代表一個Gene,也就是說,若有10種特徵值,每首歌即有10種染色體中的基因,基因之間是獨立而無順序性;而對每秒為單位的產生方式,每秒的音樂會編成一個基因碼,DNA即是一整串以每秒為單位的基因序列,也就是一種特徵會產生一串以秒為單位的基因序列。此動作的主要意義是將音樂特徵相同的整首音樂或每秒音樂聚集在一起,如同人類的基因表現,相近家族或相似的物種,在基因的表現上會較相同。
以音樂基因樣式為基礎之音樂情緒及語意辨識技術,基於產生之音樂基因,發展一「以音樂基因樣式為基礎之音樂情緒及語意辨識技術」。此技術將會有兩個候選方法,此方法主要是以基因樣式本身鑑別度IDF與基因所含語意出現的頻率TF為基礎,所構成的方法。
科學突破性
系統將整合上述技術成為一套支援網際網路架構之音樂註解與搜尋服務系統,並實際導入應用於行車音響、個人手持裝置與線上音樂服務。
產業應用性
本系統可讓使用者使用語意、類別、情緒與音樂實體作查詢欣賞,未來將尋求行車音響、個人手持播放器、線上音樂搜尋服務業者等應用合作,開發出符合商業需求的套裝軟體,達到商業產品加值的效果。
關鍵字 音樂DNA 內涵式音樂擷取 音樂辨識 聽覺基因 語意音樂擷取 音樂情緒 物聯網 智慧音箱 人工智慧 資料探勘
  • 聯絡人
  • 蘇家輝
其他人也看了