技術名稱 基於自然語言的影像分割技術
計畫單位 中央研究院資訊科學研究所
計畫主持人 劉庭祿
技術簡介
我們提出一種迭代式學習機制來解決指涉式影像分割。此機制在給定自然語言的深度特徵後,由下至上的預測該深度特徵與每個像素的相關性來產生視字嵌入熱圖。接著,卷積循環神經網絡由上至下地將視字嵌入熱圖做精細化處理。這種迭代的更新自然語言深度特徵、產生視字嵌入熱圖、對熱圖做精細化的過程實現了領先的分割準確度。
科學突破性
本技術迭代的更新自然語言深度特徵、產生視字嵌入熱圖、對熱圖做精細化來有效解決指涉式影像分割。相較於其他依賴物件偵測器或屬性預測器的複雜模型,本技術實現了以端到端的單一模型即可於四個標準資料集達到分割精準度優於目前現有的多種模型。該技術除了簡化模型的訓練過程,也提供了修正自然語言深度特徵的好處。
產業應用性
複合模態分析是目前研究發展的一大趨勢,本技術所解決的指涉式影像分割即是一種結合了視覺與文字兩種模態的跨域應用。本技術提供一個良好的切入點結合電腦視覺與自然語言處理,而技術中的多模態表示式嵌入學習法可供產業界當作樣板,進而開發結合視覺與自然語言或其他不同模態組合的多媒體應用。
關鍵字 電腦視覺 深度學習 卷積神經網路 卷積循環神經網絡 影像分割 自然語言 指涉式分割 嵌入 注意 指涉式表示
  • 聯絡人
  • 陳鼎介
其他人也看了