系統識別號 | U0002-0608201823534600 |
---|---|
DOI | 10.6846/TKU.2018.00212 |
論文名稱(中文) | 網路意見評論之中文情感分析 |
論文名稱(英文) | Chinese Sentiment Analysis with Application to Online Opinion Reviews |
第三語言論文名稱 | |
校院名稱 | 淡江大學 |
系所名稱(中文) | 統計學系應用統計學碩士班 |
系所名稱(英文) | Department of Statistics |
外國學位學校名稱 | |
外國學位學院名稱 | |
外國學位研究所名稱 | |
學年度 | 106 |
學期 | 2 |
出版年 | 107 |
研究生(中文) | 廖瑩蒨 |
研究生(英文) | Ying-Chien Liao |
學號 | 605650208 |
學位類別 | 碩士 |
語言別 | 繁體中文 |
第二語言別 | |
口試日期 | 2018-07-17 |
論文頁數 | 87頁 |
口試委員 |
指導教授
-
陳景祥
委員 - 吳漢銘 委員 - 李百靈 |
關鍵字(中) |
文字探勘 中文情感分析 SO-PMI 半監督式機器學習 主題情緒詞庫 支持向量機 |
關鍵字(英) |
Text mining Chinese sentiment analysis SO-PMI Semi-supervised Mechine Learning Topic Emotion Lexicon SVM |
第三語言關鍵字 | |
學科別分類 | |
中文摘要 |
本研究提出了一個半監督式情感分析方法,分為兩階段,第一階段採用非監督式情感分析技術,透過SO-PMI計算詞相似度,並生成有主題的情緒詞庫,基於主題情緒詞庫計算情感分數;第二階段分析採用監督式分析中的支持向量機(SVM)做情感分析。本研究提出的新方法可自動找出第一階段的最佳門檻值,以篩選需要進入第二階段分析之資料。 除了根據不同的主題資料生成專屬於此主題的情緒詞庫之外,本研究也考慮了分析錯誤以及人工標記所造成的成本損失。其他分析者在未來做相似運算時,可以根據本研究的損失成本比例來判斷是否適合使用半監督式情感分析方法。 |
英文摘要 |
In this paper, we presents a semi-supervised sentiment analysis method, is divided into two stages. The first stage uses the unsupervised sentiment analysis approach that adopts a SO-PMI technique to build the emotion lexicon for different topics. And calculates the emotion score based on the topic emotion lexicon. The second stage analysis uses the supervised sentiment analysis approach that adopts the support vector machine(SVM). The new method proposed in this paper can automatically find the best threshold value of the first stage to select the data that needs to be entered into the second stage analysis. This study also considered the cost loss caused by the analysis error and manual marking. When other analysts do similar operations in the future, it is possible to judge whether the half-supervised affective analysis method is suitable according to the proportion of loss cost in this study. |
第三語言摘要 | |
論文目次 |
目錄 論文提要 I Abstract II 目錄 III 圖目錄 V 表目錄 VI 第一章、緒論 1 第一節、研究背景與動機 1 第二節、研究目的 2 第三節、論文架構 3 第四節、研究流程 3 第二章、文獻探討 5 第一節、中文斷詞處理 5 2.1.1 CKIP中文斷詞系統 5 2.1.2 R語言中的中文斷詞系統 6 第二節、詞彙極性 7 第三節、情感分析 10 第三章、研究方法 13 第一節、方法與架構 13 第二節、評估指標 16 第三節、半監督式情感分析介紹 18 3.3.1 第一階段 Part I:非監督式情感分析 18 3.3.2 第一階段Part II:找出最佳門檻值 19 3.3.3 第二階段:監督式情感分析 22 第四章、實例分析 23 第一節、資料描述及預處理 23 4.1.1 資料描述 23 4.1.2資料預處理 23 第二節、第一階段分析結果 24 第三節、第二階段分析結果 26 4.3.1 Book資料分析 26 4.3.2 Hotel資料分析 31 4.3.3 Notebook資料分析 36 第四節、小結 41 第五章、結論 42 第一節、總結 42 第二節、未來研究發展 43 參考文獻 44 附錄 46 圖目錄 圖 1. 4. 1 研究流程圖 4 圖 3. 1. 1 非監督式情感分析步驟 15 圖 3. 2. 1 cost值分解圖 17 圖 3. 3. 1 情感分數落於門檻值內示意圖 21 圖 4. 3. 1 Book資料當x:y=1:1時之cost值 28 圖 4. 3. 2 Book資料當x:y=1:2時之cost值 29 圖 4. 3. 3 Book資料當x:y=2:1時之cost值 30 圖 4. 3. 4 Hotel資料當x:y=1:1時之cost值 33 圖 4. 3. 5 Hotel資料當x:y=1:2時之cost值 34 圖 4. 3. 6 Hotel資料當x:y=2:1時之cost值 35 圖 4. 3. 7 Notebook資料當x:y=1:1時之cost值 38 圖 4. 3. 8 Notebook資料當x:y=1:2時之cost值 39 圖 4. 3. 9 Notebook資料當x:y=2:1時之cost值 40 表目錄 表 4. 1. 1 資料集描述 23 表 4. 2. 1 新生成的主題情緒詞庫描述 24 表 4. 3. 1 Book資料在不同成本以及n下得出之cost值 27 表 4. 3. 2 Hotel資料在不同成本以及n下得出之cost值 32 表 4. 3. 3 Notebook資料在不同成本以及n下得出之cost值 37 |
參考文獻 |
參考文獻 英文文獻: 1. B.Liu (2012), Sentiment Analysis and Opinion Mining, Synthesis Lectures on Human Language Technotogies, 5, 1-167 2. Church, Kenneth Ward, and Patrick Hands (1990), Word association norms, Mutual information, and lexicography. Computational linguistics, 16.1, 22-29. 3. Cortes, C. and Vapnik, V. (1995), Support-vector networks. Machine Learning, 20, 273-297. 4. Levene, Howard. (1960), Robust tests for equality of variances, Contributions to probability and statistics: Essays in honor of Harold Hotelling, 2, 278-292. 5. Turney, Peter, and Michael L. Littman. (2002), Unsupervised learning of semantic orientation from a hundred-billion-word corpus, Technical Report ERB-1094. 6. ZQ. Wang, X. Sun, DX. Zhang, and X. Li. (2006) , An Optimal SVM-Based Text Classification Algorithm, 2006 International Conference on Machine Learning and Cybernetics,1378-1381. 中文文獻: 7. 陳立(2010),「中文情感語意自動分類之研究」,臺灣師範大學資訊工程研究所學位論文。 8. 陳昱年(2013),「電影評論中情緒詞彙之極性分析」臺灣師範大學資訊工程研究所學位論文。 9. 顏安孜(2016),「中文部落格文章之相關性擷取與意見傾向分析之研究」,臺灣師範大學資訊工程研究所學位論文。 10. 劉炅函(2017),「中文情感分析應用於PTT之研究」,淡江大學統計學系碩士班學位論文。 11. 吳登揚(2017),「基於不同主題的中文情感分析技術比較」,淡江大學統計學系碩士班學位論文。 12. 陳景祥(2010),R軟體:應用統計方法,台北:台灣東華。 |
論文全文使用權限 |
如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信