數字在許多領域的文檔中提供了豐富而關鍵的訊息,例如,在臨床記錄中,一項重要的訊息是劑量;在財務報表中,數字代表許多涵義。但是,大多數的研究都將數字用作單詞處理,並未詳盡了解數字中的訊息。為了推進這方面研究的發展,我們提出了一系列新穎的數字理解與探勘任務,並引領全球關於數字理解和挖掘的研究方向。我們探討了一系列與數字相關的新穎挑戰,並就財務意見探勘問題進行了實驗。為了探索財務意見探勘中的數字理解任務,我們提出了四個數據集,包括FinNum、NumAttach、NumClaim、以及Numeracy-600K。
由於數字在財務數據分析中,具有非常關鍵的資訊,因此我們提出了一項新穎的數字理解任務,以消除財務數據中數字的歧義,我們還演示了數字理解任務的實際應用。我們進一步將數字理解任務擴展到標的與數字間的依附分析,實驗結果顯示,與數字理解任務一起進行的訓練可以有效提升數字依附檢測的表現。意見品質是財務意見探勘中尚未被探索的問題,先前的研究均給予每個意見相同的權重,我們提出了一種根據其理由評估意見品質的方法,並發現從利潤和風險兩方面來看,所提方法篩選出的意見優於按使用者反饋排序的意見。此外,我們進一步討論了另一個與意見品質有關的問題:虛假訊息偵測。我們透過讓模型學習數理能力來探究此問題,並將其應用於誇大的訊息檢測。同時,我們也將數字理解任務擴展到金融領域的應用場景,在法說會紀錄中擷取經理人的觀點。
我們提出了嶄新的研究議題,並提供專家標記資料集,引領全球數字理解及探勘領域的發展,研究成果除了發表在ACL、SIGIR和The Web Conference等頂級自然語言處理及資訊檢索的國際會議外,我們也在世界三大資訊檢索評比之一的NTCIR中舉辦一系列公開任務,引領此研究方向的發展。此外,我們亦將研究結果落地應用到實際場域中,包含誇大資訊偵測及法說會資訊擷取等重要金融應用中。 |