§ 瀏覽學位論文書目資料
  
系統識別號 U0002-0202201711583900
DOI 10.6846/TKU.2017.00019
論文名稱(中文) 中文情感分析應用於PTT之研究
論文名稱(英文) Improved Chinese Sentiment Analysis Techniques for PTT Data
第三語言論文名稱
校院名稱 淡江大學
系所名稱(中文) 統計學系應用統計學碩士班
系所名稱(英文) Department of Statistics
外國學位學校名稱
外國學位學院名稱
外國學位研究所名稱
學年度 105
學期 1
出版年 106
研究生(中文) 劉炅函
研究生(英文) Gui-Han Liu
學號 603650226
學位類別 碩士
語言別 繁體中文
第二語言別
口試日期 2017-01-14
論文頁數 44頁
口試委員 指導教授 - 陳景祥
委員 - 李百靈
委員 - 何宗武
關鍵字(中) 文字探勘
情緒分析
詞彙極性
點互信息
關鍵字(英) Text mining
Sentiment analysis
Semantic orientation
PMI
第三語言關鍵字
學科別分類
中文摘要
許多人會在網路上撰寫文章、彼此透過文字來交流,尤其年輕世代的人更是如此,人們在彼此交流時會有情緒的產生,同時,人們在撰寫文章時或多或少會將自己的情緒融入到文章內,比如對於某事件、某議題大眾網友的看法、情緒等。台灣大學批踢踢實業坊為現今具有代表性的討論區網站之一,其眾多的人口流量、大量的子討論區、特殊的系統架構、網友互動的方式等,產生了許多熱門文章與新穎的網路用語,經常被媒體拿來當作新聞題材。網路文章有部份詞彙具有其對應的情緒,可能為正面、也可能為負面,一般來說稱之為詞彙極性。在文字探勘領域,對於詞彙極性之標注採用人工的方式最為準確,但也最花費成本。本研究採用調整PMI的方法,期望達到自動化標注詞彙極性的部份;本研究對文章情緒分析的部份採用非監督式方法,因此不需要已標記過之訓練文章,只需要具有正負面極性之詞彙、否定詞、副詞等,與句子詞性組合做搭配來建構出文章情緒模型,藉此達到分類文章情緒之目的。
英文摘要
Many modern people communicate with each other with writing articles,especially the younger generation. During communication, people show their emotions whenthey writing articles. These articles include comments on social events, issues, etc. PTT is one of today’s representative forum websites at Taiwan. Features of PTT include large population traffic, many different categories of sub-forum, a special system architecture, and the way users interact etc. Therefore, PTT also generates  many popular articles and internet catchphrases, which are usually adopted and strengthened by news media.

	Vocabularies in internet articles have their corresponding emotions, which may be categorized as positive, negative or neutral and phrased as semantic orientations. So far, manual tagging is the most accurate way to judge the semantic orientations in text mining, with the disadvantage of higher cost. In this study, we use adjusted Pointwise Mutual Information (PMI) method to achieve auto-tagging of semantic orientations. Moreover, we use unsupervised learning method for the sentiment modeling without marked training data. With just negation words, adverb, adjective, positive and negative words etc, together with the sentence speech, we hope to achieve the purpose of classification of article’s emotions in PTT.
第三語言摘要
論文目次
目錄
第一章、緒論	1
第一節、研究背景	1
第二節、研究動機與目的	2
第三節、本文架構	4
第四節、研究流程	5
第二章、文獻探討	6
第一節、中文文字處理	6
2.1.1 CKIP 中文斷詞系統	6
2.1.2 斷詞工具	7
第二節、詞彙極性	10
第三節、情緒分析	13
第三章、研究方法	15
第一節、	資料結構	15
第二節、詞彙極性方法	16
第三節、情緒分析方法	19
第四章、實例分析	27
第一節、應用資料	27
第二節、研究結果分析與討論	28
4.2.1 初步結果	28
4.2.2 移除新詞方法結果討論	33
4.2.3 移除回文標記方法結果討論	37
第五章、結論與建議	40
第一節、結論	40
第二節、未來研究發展與建議	41
參考文獻	43

表目錄
表2.1 詞性標記表(Rwordseg及JiebaR)	9
表3.1 詞庫分數表	19
表3.2 回文標記表	20
表3.3 情緒分數計算-副詞1	21
表3.4 情緒分數計算-副詞2	22
表3.5 情緒分數計算-形容詞	23
表3.6 情緒分數計算-否定詞	24
表4.1 種子詞庫正負極性表	28
表4.2 情緒分析用情感詞庫	29
表4.3 驗證結果-定值切割	31
表4.4 驗證結果-比例切割	32
表4.5 驗證結果-K倍標準差	32
表4.6 驗證結果-定值切割-新詞方法比較	34
表4.7 驗證結果-比例切割-新詞方法比較	35
表4.8 驗證結果-K倍標準差-新詞方法比較	35
表4.9驗證結果-定值切割-回文標記方法比較	37
表4.10 驗證結果-比例切割-回文標記方法比較	38
表4.11 驗證結果-K倍標準差-回文標記方法比較	38

圖目錄
圖 1.1 研究流程圖	5
圖 2.1 CKIP 中文斷詞系統結果	8
圖 2.2 Rwordseg斷詞結果	8
圖 2.3 jiebaR斷詞結果	8
圖 3.1 PTT界面	15
圖 4.1 PTT八卦板與政黑板示意圖	27
圖 4.2 組距50之情緒分數直方圖	30
圖 4.3 組距25之情緒分數直方圖	30
參考文獻
[1] Church, Kenneth Ward, and Patrick Hanks. “Word association norms, mutual information, and lexicography.” Computational linguistics 16.1 (1990): 22-29.
[2] Levene, Howard. “Robust tests for equality of variancesl.”Contributions to probability and statistics: Essays in honor of Harold Hotelling 2 (1960): 278-292.
[3] Royston, J. P. “Algorithm AS 181: the W test for normality. ” Journal of the Royal Statistical Society. Series C (Applied Statistics) 31.2 (1982): 176-180.
[4] Sharma, Anuj, and Shubhamoy Dey. “A comparative study of feature selection and machine learning techniques for sentiment analysis. ” Proceedings of the 2012 ACM Research in Applied Computation Symposium. ACM, (2012).
[5] Turney, Peter, and Michael L. Littman. “Unsupervised learning of semantic orientation from a hundred-billion-word corpus. ” Technical Report EGB-1094 (2002).
[6] 吳泳慶,「中文垃圾郵件客製化過濾系統之研究」,淡江大學統計學系碩士班學位論文 (2007): 1-62.
[7] 陳立,「中文情感語意自動分類之研究」,臺灣師範大學資訊工程研究所學位論文 (2010): 1-39.
[8] 陳昱年,「電影評論中情緒詞彙之極性分析」,臺灣師範大學資訊工程研究所學位論文 (2013): 1-65.
[9] 顏安孜,「中文部落格文章之相關性擷取與意見傾向分析之研究」,臺灣師範大學資訊工程研究所學位論文 (2016): 1-104.
[10] 詞性標記表 https://gist.github.com/luw2007/6016931
[11] 維基百科(形容詞) https://zh.wikipedia.org/wiki/%E5%BD%A2%E5%AE%B9%E8%AF%8D#cite_ref-LDQ_1-0
[12] 維基百科(副詞) https://zh.wikipedia.org/wiki/%E5%89%AF%E8%A9%9E
[13] 新詞產生工具 https://github.com/jannson/wordmaker
論文全文使用權限
校內
校內紙本論文立即公開
同意電子論文全文授權校園內公開
校內電子論文於授權書繳交後3年公開
校外
同意授權
校外電子論文於授權書繳交後3年公開

如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信