技術名稱 數字理解與探勘
計畫單位 國立臺灣大學
計畫主持人 陳信希
技術簡介
數字在許多領域的文檔中提供了豐富而關鍵的訊息,例如,在臨床記錄中,一項重要的訊息是劑量;在財務報表中,數字代表許多涵義。但是,大多數的研究都將數字用作單詞處理,並未詳盡了解數字中的訊息。為了推進這方面研究的發展,我們提出了一系列新穎的數字理解與探勘任務,並引領全球關於數字理解和挖掘的研究方向。我們探討了一系列與數字相關的新穎挑戰,並就財務意見探勘問題進行了實驗。為了探索財務意見探勘中的數字理解任務,我們提出了四個數據集,包括FinNum、NumAttach、NumClaim、以及Numeracy-600K。

由於數字在財務數據分析中,具有非常關鍵的資訊,因此我們提出了一項新穎的數字理解任務,以消除財務數據中數字的歧義,我們還演示了數字理解任務的實際應用。我們進一步將數字理解任務擴展到標的與數字間的依附分析,實驗結果顯示,與數字理解任務一起進行的訓練可以有效提升數字依附檢測的表現。意見品質是財務意見探勘中尚未被探索的問題,先前的研究均給予每個意見相同的權重,我們提出了一種根據其理由評估意見品質的方法,並發現從利潤和風險兩方面來看,所提方法篩選出的意見優於按使用者反饋排序的意見。此外,我們進一步討論了另一個與意見品質有關的問題:虛假訊息偵測。我們透過讓模型學習數理能力來探究此問題,並將其應用於誇大的訊息檢測。同時,我們也將數字理解任務擴展到金融領域的應用場景,在法說會紀錄中擷取經理人的觀點。

我們提出了嶄新的研究議題,並提供專家標記資料集,引領全球數字理解及探勘領域的發展,研究成果除了發表在ACL、SIGIR和The Web Conference等頂級自然語言處理及資訊檢索的國際會議外,我們也在世界三大資訊檢索評比之一的NTCIR中舉辦一系列公開任務,引領此研究方向的發展。此外,我們亦將研究結果落地應用到實際場域中,包含誇大資訊偵測及法說會資訊擷取等重要金融應用中。
科學突破性
在分析結構化資訊時,時常關注於數字資訊,這些數字成了連結結構化資料和文本資料間的關鍵要素,為了彌補先前研究的不足,我們突破以往僅關注在文字上的探勘技術,提出一系列創新的數字理解與探勘任務,並創建數個資料集。此外,我們也提出許多專為數字理解及探勘問題所設計的方法,以提升模型對數字資訊的理解能力。
產業應用性
本研究已將成果應用於財務領域文本中,在社群媒體、新聞、公司法說會和分析師報告上,皆發現本研究所提出的數字理解和探勘任務及技術,提升模型理解上述不同類型文本的效能,我們的研究成果連續兩年於日盛證券及台灣微軟所舉辦的金融科技競賽中,獲得第一名和第二名的佳績,這說明本研究於產業的應用性受到企業端的認可。
關鍵字 數字理解 數字探勘 財務意見探勘 自然語言處理 資訊擷取 意見品質分析 觀點探勘 金融科技 意見探勘 事實查核
  • 聯絡人
  • 陳重吉
其他人也看了