系統識別號 | U0002-1607201915303700 |
---|---|
DOI | 10.6846/TKU.2019.00445 |
論文名稱(中文) | 基於少量訓練資料之情感分析研究:以電影評論為例 |
論文名稱(英文) | A Study of Sentiment Analysis on a Small Volumes of Training Data : Case Study of Movie Comments |
第三語言論文名稱 | |
校院名稱 | 淡江大學 |
系所名稱(中文) | 資訊管理學系碩士班 |
系所名稱(英文) | Department of Information Management |
外國學位學校名稱 | |
外國學位學院名稱 | |
外國學位研究所名稱 | |
學年度 | 107 |
學期 | 2 |
出版年 | 108 |
研究生(中文) | 林志軒 |
研究生(英文) | Chih-Hsuan Lin |
學號 | 606630167 |
學位類別 | 碩士 |
語言別 | 繁體中文 |
第二語言別 | |
口試日期 | 2019-06-01 |
論文頁數 | 41頁 |
口試委員 |
指導教授
-
蕭瑞祥(rsshaw@mail.tku.edu.tw)
委員 - 蕭瑞祥(rsshaw@mail.tku.edu.tw) 委員 - 梁恩輝(094110@mail.tku.edu.tw) 委員 - 林我聰(lin@mis.nccu.edu.tw) |
關鍵字(中) |
資料標註 情感分析 深度學習 網路電影資料庫(IMDb) |
關鍵字(英) |
Data labeling Sentiment analysis Machine learning Online movie database (IMDb) |
第三語言關鍵字 | |
學科別分類 | |
中文摘要 |
深度學習方法在情感分析研究中越來越普及,監督式學習方法非常依賴有標記過的訓練語料,透過訓練語料的學習,使機器產生一個完善的分類器。以往遇到大量資料未標註之問題,先前研究大都是以半監督式學習或無監督式學習作為主要方法,其成效與效率未能優於監督式學習。進行監督式學習,就必須為資料以人工上標籤,然而人工標註耗費大量的人力與時間。本論文主要研究少量的標註資料訓練出預測模型,並去探討逐步減少資料量對模型訓練的影響,並利用此模型作為主要方法以預測的形式將網路上未標註的資料進行自動化標註,作為新的訓練資料進行情感分析,實作基於少量訓練資料之文字情感分析模型,並以模型指標去驗證表現差異。並以相關論文比較。 研究發現在電影二元分類中加入標註模組的深度學習模型,在模型指標的評估上都勝於其他模型。 |
英文摘要 |
Deep learning methods are becoming more and more popular in sentiment analysis research. The supervised learning method relies on the trained corpus heavily to produce a perfect classifier. In previous studies, when people encountered a large number of unlabeled data, the semi-supervised learning or unsupervised learning are suggested as the main method, but the effectiveness and efficiency are not better than supervised learning. If we labeled the data by our own self, it will take a lot of time and human resources. This research mainly studies by using a small amount of labeled data to train the prediction model, and discusses the impact of gradually reducing the amount of data on the model training and as the main method to label unlabeled data. We use the labeled data for analysis that output sentiment analysis model which based on a small amount of training data. Our study found that the movie in the binary classification, the deep learning model with labeled modules is better than other papers. |
第三語言摘要 | |
論文目次 |
目錄 第一章 緒論 1 1.1 研究背景及動機 1 1.2 研究目的 2 1.3 研究架構 3 第二章 文獻探討 4 2.1 情感分析(SENTIMENT ANALYSIS) 4 2.2 詞彙基礎法(LEXICON-BASED APPROACH) 4 2.3 機器學習法 (MACHINE LEARNING APPROACH) 6 2.4 深度學習法 (DEEP LEARNING APPROACH) 6 2.5 多層感知器 (MULTI LAYER PERCEPTRON,MLP) 6 2.6 循環神經網路 (RECURRENT NEURAL NETWORK, RNN) 7 2.7 長短期記憶網路(LONG SHORT-TERM MEMORY, LSTM) 8 2.8 閘循環單元(GATED RECURRENT UNIT, GRU) 9 2.9 情感分析應用於電影評論領域 10 2.9.1 電影評論應用於推薦系統 10 2.9.2 電影評論應用於情緒詞庫之擴充 13 2.10 數據標註 15 2.11 本章小結 16 第三章 研究方法與系統架構 17 3.1 研究方法 17 3.2 系統架構 18 3.3 資料說明 19 3.3.1 已標註電影評論資料集(Andrew L, 2011) 20 3.3.2 資料搜集模組所搜集的電影評論資料集 20 3.3.3 少量資料之定義 24 3.4 訓練模組 24 3.4.1 資料預處理 25 3.4.2 產生詞向量 26 3.4.3 自動化標註 28 3.5 建立深度學習模型 28 3.6 標註模組 29 第四章 資料分析與實驗結果 30 4.1 實驗說明 30 4.2 訓練模組的成果 31 4.3 標註模組的成果 33 4.4 資料驗證模組結果 34 4.5 與其他相關論文比較結果 35 第五章 結論與建議 37 5.1 結論 37 5.2 研究貢獻 38 5.3 管理意涵 38 5.4 未來研究方向 39 參考文獻 40 圖目錄 圖1 論文架構圖 3 圖2 多層感知器架構圖 7 圖3 循環神經網路架構圖 8 圖4 長短期記憶網路架構圖 9 圖5 閘循環單元架構圖 10 圖6 系統發展研究流程圖(Nunamaker, 1990-1991) 18 圖7 少量訓練資料之文字情感分析機器學習雛型系統研究架構圖 19 圖8 網路電影資料庫IMDB主頁示意圖 21 圖9 電影資訊頁面示意圖(以電影阿凡達為例) 22 圖10 The numbers頁面示意圖 23 圖11 前處理過後的評論資料 24 圖12 訓練及標註模組架構圖 25 圖13 影評文字轉換數字格式示意圖 26 圖14 文字轉換數字示意圖 27 圖15 文字轉換向量示意圖 27 圖16 向量示意圖 27 圖17 自動化標註方法建立流程圖 28 圖18 標註模組流程圖 29 圖19 標註的資料集正負評分布狀況 33 表目錄 表1 電影評論應用於推薦系統之整理表 11 表2 電影評論應用於情緒詞庫擴充之整理表 14 表3 數據標註分類整理表 15 表4 已標註電影評論資料集資料分布狀況表 20 表5 各模型的參數比較表 31 表6 各模型的評估指標比較表 32 表7 標註模型與再訓練模型參數比較表 34 表8 標註模型與再訓練模型評估指標比較表 35 表9 本研究模型與其他論文模型比較表 35 |
參考文獻 |
[1]. Karniouchina, E. V. (2011). Impact of star and movie buzz on motion picture distribution and box office revenue. International Journal of Research in Marketing, 28(1), 62-74. [2]. B Pang, L Lee.(2008). Opinion mining and sentiment analysis.Foundations and trends in information retrieval 2 (1-2), 1-135 [3]. Strapparava, C., & Valitutti, A. (2004, May). Wordnet affect: an affective extension of wordnet. In Lrec (Vol. 4, pp. 1083-1086). [4]. Andrew L. Maas, Raymond E. Daly, Peter T. Pham, Dan Huang, Andrew Y. Ng, and Christopher Potts. (2011). Learning Word Vectors for Sentiment Analysis. The 49th Annual Meeting of the Association for Computational Linguistics (ACL 2011). [5]. Pang, P., He, J., Park, J. H., Krstić, P. S., & Lindsay, S. (2011). Origin of giant ionic currents in carbon nanotube channels. ACS nano, 5(9), 7277-7283. [6]. Baccianella, S., Esuli, A., & Sebastiani, F. (2010, May). Sentiwordnet 3.0: an enhanced lexical resource for sentiment analysis and opinion mining. In Lrec (Vol. 10, No. 2010, pp. 2200-2204). [7]. 李政儒. (2011). 應用廣義知網以支援情緒分析之研究. 臺灣大學資訊工程學研究所學位論文, 1-65. [8]. 謝金育. (2013). 結合貝氏網路與激勵理論之推薦機制-電影推薦系統設計. 交通大學管理學院資訊管理學程學位論文, 1-71. [9]. 周明翰. (2013). 以潛在語意分析建構個人化電影推薦系統 (Doctoral dissertation, guo li ping dong ke ji da xue zi xun guan li xi). [10]. 楊智博. (2015). 推薦系統資料插補改良法-電影推薦系統應用 (Doctoral dissertation, 楊智博). [11]. 吉雷.(2015). 運用電影銷售趨勢分群於電影推薦系統之研究. [12]. 陳泓瑋.(2016). 內容導向電影推薦系統結合類神經網路之特徵抽取. [13]. 陳仕堯. (2017). 結合意見探勘之電影推薦系統的研究. 淡江大學資訊管理學系碩士班學位論文, 1-66. [14]. 顏銘伯. (2017). 應用主題模型提升電影推薦系統之績效. [15]. 蔡英順. (2016). 結合社群網站資料之電影推薦系統. [16]. 黃俊銘. (2013). 電影評論之語料庫建立之研究 (Doctoral dissertation, 黃俊銘). [17]. 楊少捷. (2018). 臺灣電影口碑語料庫之建置架構. [18]. Zhuang, L., Jing, F., & Zhu, X. Y. (2006, November). Movie review mining and summarization. In Proceedings of the 15th ACM international conference on Information and knowledge management (pp. 43-50). ACM. [19]. Anton Ovchinnikov.(2016).Constructing a data dictionary for Twitter stream [20]. 郭麗麗, & 丁世飛. (2015). 深度學習研究進展. 計算機科學, 5. [21]. Zhuang, L., Jing, F., & Zhu, X. Y. (2006, November). Movie review mining and summarization. In Proceedings of the 15th ACM international conference on Information and knowledge management (pp. 43-50). ACM. [22]. Hai, Z., Chang, K., & Kim, J. J. (2011, February). Implicit feature identification via co-occurrence association rule mining. In International Conference on Intelligent Text Processing and Computational Linguistics (pp. 393-404). Springer, Berlin, Heidelberg. [23]. Martinez, A. B. B., Lopez, M. R., Montenegro, E. C., Fonte, F. A. M., Burguillo, J. C., & Peleteiro, A. (2010). Exploiting social tagging in a web 2.0 recommender system. IEEE Internet Computing, 14(6), 23-30. [24]. Shirani-Mehr, H. (2014). Applications of deep learning to sentiment analysis of movie reviews. In Technical report. Stanford University. [25]. Hu, M., & Liu, B. (2004, August). Mining and summarizing customer reviews. In Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining (pp. 168-177). ACM. [26]. 劉曉彤, & 田大鋼. (2019). 融合深度學習与機器學習的在線評論情感分析. 軟件導刊, 18(2), 1-4. |
論文全文使用權限 |
如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信