淡江大學覺生紀念圖書館 (TKU Library)
進階搜尋


下載電子全文限經由淡江IP使用) 
系統識別號 U0002-1607201915303700
中文論文名稱 基於少量訓練資料之情感分析研究:以電影評論為例
英文論文名稱 A Study of Sentiment Analysis on a Small Volumes of Training Data : Case Study of Movie Comments
校院名稱 淡江大學
系所名稱(中) 資訊管理學系碩士班
系所名稱(英) Department of Information Management
學年度 107
學期 2
出版年 108
研究生中文姓名 林志軒
研究生英文姓名 Chih-Hsuan Lin
學號 606630167
學位類別 碩士
語文別 中文
口試日期 2019-06-01
論文頁數 41頁
口試委員 指導教授-蕭瑞祥
委員-蕭瑞祥
委員-梁恩輝
委員-林我聰
中文關鍵字 資料標註  情感分析  深度學習  網路電影資料庫(IMDb) 
英文關鍵字 Data labeling  Sentiment analysis  Machine learning  Online movie database (IMDb) 
學科別分類
中文摘要 深度學習方法在情感分析研究中越來越普及,監督式學習方法非常依賴有標記過的訓練語料,透過訓練語料的學習,使機器產生一個完善的分類器。以往遇到大量資料未標註之問題,先前研究大都是以半監督式學習或無監督式學習作為主要方法,其成效與效率未能優於監督式學習。進行監督式學習,就必須為資料以人工上標籤,然而人工標註耗費大量的人力與時間。本論文主要研究少量的標註資料訓練出預測模型,並去探討逐步減少資料量對模型訓練的影響,並利用此模型作為主要方法以預測的形式將網路上未標註的資料進行自動化標註,作為新的訓練資料進行情感分析,實作基於少量訓練資料之文字情感分析模型,並以模型指標去驗證表現差異。並以相關論文比較。
研究發現在電影二元分類中加入標註模組的深度學習模型,在模型指標的評估上都勝於其他模型。
英文摘要 Deep learning methods are becoming more and more popular in sentiment analysis research. The supervised learning method relies on the trained corpus heavily to produce a perfect classifier. In previous studies, when people encountered a large number of unlabeled data, the semi-supervised learning or unsupervised learning are suggested as the main method, but the effectiveness and efficiency are not better than supervised learning. If we labeled the data by our own self, it will take a lot of time and human resources. This research mainly studies by using a small amount of labeled data to train the prediction model, and discusses the impact of gradually reducing the amount of data on the model training and as the main method to label unlabeled data. We use the labeled data for analysis that output sentiment analysis model which based on a small amount of training data.
Our study found that the movie in the binary classification, the deep learning model with labeled modules is better than other papers.
論文目次 目錄


第一章 緒論 1
1.1 研究背景及動機 1
1.2 研究目的 2
1.3 研究架構 3
第二章 文獻探討 4
2.1 情感分析(SENTIMENT ANALYSIS) 4
2.2 詞彙基礎法(LEXICON-BASED APPROACH) 4
2.3 機器學習法 (MACHINE LEARNING APPROACH) 6
2.4 深度學習法 (DEEP LEARNING APPROACH) 6
2.5 多層感知器 (MULTI LAYER PERCEPTRON,MLP) 6
2.6 循環神經網路 (RECURRENT NEURAL NETWORK, RNN) 7
2.7 長短期記憶網路(LONG SHORT-TERM MEMORY, LSTM) 8
2.8 閘循環單元(GATED RECURRENT UNIT, GRU) 9
2.9 情感分析應用於電影評論領域 10
2.9.1 電影評論應用於推薦系統 10
2.9.2 電影評論應用於情緒詞庫之擴充 13
2.10 數據標註 15
2.11 本章小結 16
第三章 研究方法與系統架構 17
3.1 研究方法 17
3.2 系統架構 18
3.3 資料說明 19
3.3.1 已標註電影評論資料集(Andrew L, 2011) 20
3.3.2 資料搜集模組所搜集的電影評論資料集 20
3.3.3 少量資料之定義 24
3.4 訓練模組 24
3.4.1 資料預處理 25
3.4.2 產生詞向量 26
3.4.3 自動化標註 28
3.5 建立深度學習模型 28
3.6 標註模組 29
第四章 資料分析與實驗結果 30
4.1 實驗說明 30
4.2 訓練模組的成果 31
4.3 標註模組的成果 33
4.4 資料驗證模組結果 34
4.5 與其他相關論文比較結果 35
第五章 結論與建議 37
5.1 結論 37
5.2 研究貢獻 38
5.3 管理意涵 38
5.4 未來研究方向 39
參考文獻 40

圖目錄

圖1 論文架構圖 3
圖2 多層感知器架構圖 7
圖3 循環神經網路架構圖 8
圖4 長短期記憶網路架構圖 9
圖5 閘循環單元架構圖 10
圖6 系統發展研究流程圖(Nunamaker, 1990-1991) 18
圖7 少量訓練資料之文字情感分析機器學習雛型系統研究架構圖 19
圖8 網路電影資料庫IMDB主頁示意圖 21
圖9 電影資訊頁面示意圖(以電影阿凡達為例) 22
圖10 The numbers頁面示意圖 23
圖11 前處理過後的評論資料 24
圖12 訓練及標註模組架構圖 25
圖13 影評文字轉換數字格式示意圖 26
圖14 文字轉換數字示意圖 27
圖15 文字轉換向量示意圖 27
圖16 向量示意圖 27
圖17 自動化標註方法建立流程圖 28
圖18 標註模組流程圖 29
圖19 標註的資料集正負評分布狀況 33




表目錄

表1 電影評論應用於推薦系統之整理表 11
表2 電影評論應用於情緒詞庫擴充之整理表 14
表3 數據標註分類整理表 15
表4 已標註電影評論資料集資料分布狀況表 20
表5 各模型的參數比較表 31
表6 各模型的評估指標比較表 32
表7 標註模型與再訓練模型參數比較表 34
表8 標註模型與再訓練模型評估指標比較表 35
表9 本研究模型與其他論文模型比較表 35
參考文獻 [1]. Karniouchina, E. V. (2011). Impact of star and movie buzz on motion picture distribution and box office revenue. International Journal of Research in Marketing, 28(1), 62-74.
[2]. B Pang, L Lee.(2008). Opinion mining and sentiment analysis.Foundations and trends in information retrieval 2 (1-2), 1-135
[3]. Strapparava, C., & Valitutti, A. (2004, May). Wordnet affect: an affective extension of wordnet. In Lrec (Vol. 4, pp. 1083-1086).
[4]. Andrew L. Maas, Raymond E. Daly, Peter T. Pham, Dan Huang, Andrew Y. Ng, and Christopher Potts. (2011). Learning Word Vectors for Sentiment Analysis. The 49th Annual Meeting of the Association for Computational Linguistics (ACL 2011).
[5]. Pang, P., He, J., Park, J. H., Krstić, P. S., & Lindsay, S. (2011). Origin of giant ionic currents in carbon nanotube channels. ACS nano, 5(9), 7277-7283.
[6]. Baccianella, S., Esuli, A., & Sebastiani, F. (2010, May). Sentiwordnet 3.0: an enhanced lexical resource for sentiment analysis and opinion mining. In Lrec (Vol. 10, No. 2010, pp. 2200-2204).
[7]. 李政儒. (2011). 應用廣義知網以支援情緒分析之研究. 臺灣大學資訊工程學研究所學位論文, 1-65.
[8]. 謝金育. (2013). 結合貝氏網路與激勵理論之推薦機制-電影推薦系統設計. 交通大學管理學院資訊管理學程學位論文, 1-71.
[9]. 周明翰. (2013). 以潛在語意分析建構個人化電影推薦系統 (Doctoral dissertation, guo li ping dong ke ji da xue zi xun guan li xi).
[10]. 楊智博. (2015). 推薦系統資料插補改良法-電影推薦系統應用 (Doctoral dissertation, 楊智博).
[11]. 吉雷.(2015). 運用電影銷售趨勢分群於電影推薦系統之研究.
[12]. 陳泓瑋.(2016). 內容導向電影推薦系統結合類神經網路之特徵抽取.
[13]. 陳仕堯. (2017). 結合意見探勘之電影推薦系統的研究. 淡江大學資訊管理學系碩士班學位論文, 1-66.
[14]. 顏銘伯. (2017). 應用主題模型提升電影推薦系統之績效.
[15]. 蔡英順. (2016). 結合社群網站資料之電影推薦系統.
[16]. 黃俊銘. (2013). 電影評論之語料庫建立之研究 (Doctoral dissertation, 黃俊銘).
[17]. 楊少捷. (2018). 臺灣電影口碑語料庫之建置架構.
[18]. Zhuang, L., Jing, F., & Zhu, X. Y. (2006, November). Movie review mining and summarization. In Proceedings of the 15th ACM international conference on Information and knowledge management (pp. 43-50). ACM.
[19]. Anton Ovchinnikov.(2016).Constructing a data dictionary for Twitter stream
[20]. 郭麗麗, & 丁世飛. (2015). 深度學習研究進展. 計算機科學, 5.
[21]. Zhuang, L., Jing, F., & Zhu, X. Y. (2006, November). Movie review mining and summarization. In Proceedings of the 15th ACM international conference on Information and knowledge management (pp. 43-50). ACM.
[22]. Hai, Z., Chang, K., & Kim, J. J. (2011, February). Implicit feature identification via co-occurrence association rule mining. In International Conference on Intelligent Text Processing and Computational Linguistics (pp. 393-404). Springer, Berlin, Heidelberg.
[23]. Martinez, A. B. B., Lopez, M. R., Montenegro, E. C., Fonte, F. A. M., Burguillo, J. C., & Peleteiro, A. (2010). Exploiting social tagging in a web 2.0 recommender system. IEEE Internet Computing, 14(6), 23-30.
[24]. Shirani-Mehr, H. (2014). Applications of deep learning to sentiment analysis of movie reviews. In Technical report. Stanford University.
[25]. Hu, M., & Liu, B. (2004, August). Mining and summarizing customer reviews. In Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining (pp. 168-177). ACM.
[26]. 劉曉彤, & 田大鋼. (2019). 融合深度學習与機器學習的在線評論情感分析. 軟件導刊, 18(2), 1-4.
論文使用權限
  • 同意紙本無償授權給館內讀者為學術之目的重製使用,於2019-07-24公開。
  • 同意授權瀏覽/列印電子全文服務,於2019-07-24起公開。


  • 若您有任何疑問,請與我們聯絡!
    圖書館: 請來電 (02)2621-5656 轉 2486 或 來信