系統識別號 | U0002-3006201715485700 |
---|---|
DOI | 10.6846/TKU.2017.01083 |
論文名稱(中文) | 基於不同主題的中文情感分析比較 |
論文名稱(英文) | Comparisons of Sentiment Analysis Techniques based on Different Topics |
第三語言論文名稱 | |
校院名稱 | 淡江大學 |
系所名稱(中文) | 統計學系應用統計學碩士班 |
系所名稱(英文) | Department of Statistics |
外國學位學校名稱 | |
外國學位學院名稱 | |
外國學位研究所名稱 | |
學年度 | 105 |
學期 | 2 |
出版年 | 106 |
研究生(中文) | 吳登揚 |
研究生(英文) | Dang-Yang Wu |
學號 | 604650282 |
學位類別 | 碩士 |
語言別 | 繁體中文 |
第二語言別 | |
口試日期 | 2017-06-17 |
論文頁數 | 46頁 |
口試委員 |
指導教授
-
陳景祥
委員 - 陳景祥 委員 - 李百靈 委員 - 何宗武 |
關鍵字(中) |
文字探勘 情感分析 點互信息 SVM |
關鍵字(英) |
Text mining Sentiment analysis PMI SVM |
第三語言關鍵字 | |
學科別分類 | |
中文摘要 |
在現今社會中,越來越多人會透過網路分享自己對某些事件的看法,分析評論情感傾向的技術,稱為情感分析(Sentiment Analysis)。因此,如何在網路資訊累積速度越來越快時,即時且精確地分析網路評論的情感傾向,是情感分析重要的研究方向。 在網路評論中,部份詞彙具有其對應的情緒,可能為正向、也可能為負向,一般來說稱之為詞彙極性。在情感分析領域中,對於詞彙極性之標注採用人工的方式最為準確,但也最花費時間與成本。本論文會先提出一個利用基於語意PMI概念的非監督式方法,期望建立屬於該主題的情緒詞庫;進一步地我們結合監督式與半監督式的優點,提出一個半監督式方法,結合我們所提出來的非監督式方法與監督式方法中的支持向量機(Support Vector Machine,SVM),期望能更近一步提升我們的分類準確率。 對於不同的主題,我們採用了不同的情感分析技術去比較,最後我們實際應用在報紙的文章、隨機選取數百篇文章驗證本論文的方法。結果顯示我們的方法比單純非監督式技術預測精確度更高。 |
英文摘要 |
In the era of internet, more and more people share their opinions on the web and sentiment analysis is the technique used to analyze the emotions of these opinions. While network opinions are accumulated in increasing speed, improvement of accuracy and correctness of classification of emotional tendencies in sentiment analysis become important research directions. In the online opinions, terms or words may be positive or negative., generally referred to as lexical polarity. So far, manual tagging is the most accurate way to judge the semantic orientations in sentiment analysis, with the disadvantage of higher cost. In this paper, we presents an unsupervised sentiment analysis approach that uses a semantic-based PMI technique to build the emotional dictionaries for different topics. Our method is a combination of our proposed unsupervised methods and Support Vector Machine (SVM) classification algorithm. The goal is to improve classification accuracy and reduction of supervising costs in sentiment analysis. Real-world online reviews and randomly selected news data are used for evaluation and comparisons of different algorithms. The results show that our method is relatively effective with the consideration of balance between classification accuracy and supervising costs. |
第三語言摘要 | |
論文目次 |
目錄 第一章、緒論........................1 第一節、研究背景....................1 第二節、研究動機與目的.................2 第三節、論文架構....................3 第四節、研究流程....................4 第二章、相關文獻探討....................5 第一節、中文文字處理..................5 2.1.1、Wordmaker詞語生成工具 ...........6 2.1.2、CKIP中文斷詞系統..............6 2.1.3、R軟體中的中文斷詞工具 ...........7 第二節、詞彙極性....................12 第三節、情感分析....................15 第三章、研究方法......................18 第一節、研究方法與架構.................18 第二節、基於情緒詞庫方法介紹..............18 第三節、非監督式方法介紹................22 第四節、半監督式方法介紹................25 第四章、實例分析......................27 第一節、實驗資料....................27 第二節、方法比較....................28 4.2.1 非監督式方法:採用原始情緒詞庫........28 4.2.2 非監督式方法:加入種子詞到情緒詞庫......31 4.2.3 半監督式方法.................37 第三節、實際應用....................40 第五章、結論與建議.....................43 第一節、結論......................43 第二節、未來研究發展與建議...............44 參考文獻..........................45 表目錄 表2.1 中研院詞性標記表...................9 表2.2 詞性標記表(Rwordseg及JiebaR) ............11 表3.1 中國情緒詞庫的情感分類................20 表4.1 實驗資料.......................27 表4.2 情緒詞庫.......................27 表4.3 三個主題斷詞的結果..................28 表4.4使用兩個情緒詞庫的分類準確率 .............29 表4.5 不同門檻值的準確率(台大情緒詞庫)...........30 表4.6 不同門檻值的準確率(中國情緒詞庫)...........30 表4.7 初始正向與負向種子個數(台大情緒詞庫).........31 表4.8 擴充後的正向與負向種子個數..............32 表4.9 非監督式分類準確率..................33 表4.10 不同門檻值的準確率 .................33 表4.11 初始正向與負向種子個數(中國情緒詞庫) ........35 表4.12 正向與負向種子透過演算法後結果 ...........35 表4.13 分類準確率 .....................35 表4.14 不同門檻值的準確率 .................36 表4.15 主題Book情緒分數取的的範圍(台灣大學情緒詞庫)....38 表4.16 主題Hotel情緒分數取的的範圍(台灣大學情緒詞庫) ...38 表4.17 主題Notebook情緒分數取的的範圍(台灣大學情緒詞庫)..38 表4.18 主題Book情緒分數取的的範圍(中國情緒詞庫)......39 表4.19 主題Hotel情緒分數取的的範圍(中國情緒詞庫) .....39 表4.20 主題Notebook情緒分數取的的範圍(中國情緒詞庫)....39 表4.21 基於辭典的方法 ...................41 表4.22 基於非監督式的方法 .................42 表4.23 實際案例情緒分數取的的範圍(台灣情緒詞庫) ......42 圖目錄 圖1.1 研究流程圖......................4 圖2.1 CKIP中文斷詞系統結果 ................8 圖2.2 Rwordseg斷詞結果 ..................8 圖2.3 jiebaR斷詞結果....................8 圖3.1 基於辭典方法流程圖..................21 圖3.2 非監督式方法流程圖..................24 圖3.3 半監督式流程圖....................26 |
參考文獻 |
參考文獻 中文文獻 1.余爭, wordmaker, (2014), GitHub repository, https://github.com/jannson/wordmaker 2.吳泳慶(2007),「中文垃圾郵件客製化過濾系統之研究」,淡江大學統計學系碩士班學位論文。 3.陳立(2010),「中文情感語意自動分類之研究」,臺灣師範大學資訊工程研究所學位論文。 4.陳昱年(2013),「電影評論中情緒詞彙之極性分析」,臺灣師範大學資訊工程研究所學位論文。 5.顏安孜(2016),「中文部落格文章之相關性擷取與意見傾向分析之研究」,臺灣師範大學資訊工程研究所學位論文。 6.陳昱年(2013),「電影評論中情緒詞彙之極性分析」,臺灣師範大學資訊工程研究所學位論文。 7.劉炅函(2017),「中文情感分析應用於PTT之研究」,淡江大學統計學系碩士班學位論文。 8.陳景祥(2010),R軟體:應用統計方法,台北:台灣東華 9.詞性標記表 https://gist.github.com/luw2007/6016931 10.ChnSentiCorp http://www.nlpir.org/?action-viewnews-itemid-77 英文文獻 1.B. Liu (2012), Sentiment Analysis and Opinion Mining, Synthesis Lectures on Human Language Technologies, 5, 1-167. 2.Church, Kenneth Ward, and Patrick Hanks (1990), Word association norms, mutual information, and lexicography. Computational linguistics 16.1, 22-29. 3.Cortes, C. and Vapnik, V.(1995), Support-vector networks. Machine Learning, 20, 273–297. 4.Levene, Howard. (1960), Robust tests for equality of variancesl, Contributions to probability and statistics: Essays in honor of Harold Hotelling 2, 278-292. 5.Royston, J. P. (1982), Algorithm AS 181: the W test for normality., Journal of the Royal Statistical Society. Series C , 31.2, 176-180. 6.Sharma, Anuj, and Shubhamoy Dey.(2012), A comparative study of feature selection and machine learning techniques for sentiment analysis, Proceedings of the 2012 ACM Research in Applied Computation Symposium. 7.Turney, Peter, and Michael L. Littman. (2002), Unsupervised learning of semantic orientation from a hundred-billion-word corpus, Technical Report EGB-1094. |
論文全文使用權限 |
如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信