§ 瀏覽學位論文書目資料
  
系統識別號 U0002-0608201823534600
DOI 10.6846/TKU.2018.00212
論文名稱(中文) 網路意見評論之中文情感分析
論文名稱(英文) Chinese Sentiment Analysis with Application to Online Opinion Reviews
第三語言論文名稱
校院名稱 淡江大學
系所名稱(中文) 統計學系應用統計學碩士班
系所名稱(英文) Department of Statistics
外國學位學校名稱
外國學位學院名稱
外國學位研究所名稱
學年度 106
學期 2
出版年 107
研究生(中文) 廖瑩蒨
研究生(英文) Ying-Chien Liao
學號 605650208
學位類別 碩士
語言別 繁體中文
第二語言別
口試日期 2018-07-17
論文頁數 87頁
口試委員 指導教授 - 陳景祥
委員 - 吳漢銘
委員 - 李百靈
關鍵字(中) 文字探勘
中文情感分析
SO-PMI
半監督式機器學習
主題情緒詞庫
支持向量機
關鍵字(英) Text mining
Chinese sentiment analysis
SO-PMI
Semi-supervised Mechine Learning
Topic Emotion Lexicon
SVM
第三語言關鍵字
學科別分類
中文摘要
本研究提出了一個半監督式情感分析方法,分為兩階段,第一階段採用非監督式情感分析技術,透過SO-PMI計算詞相似度,並生成有主題的情緒詞庫,基於主題情緒詞庫計算情感分數;第二階段分析採用監督式分析中的支持向量機(SVM)做情感分析。本研究提出的新方法可自動找出第一階段的最佳門檻值,以篩選需要進入第二階段分析之資料。
  除了根據不同的主題資料生成專屬於此主題的情緒詞庫之外,本研究也考慮了分析錯誤以及人工標記所造成的成本損失。其他分析者在未來做相似運算時,可以根據本研究的損失成本比例來判斷是否適合使用半監督式情感分析方法。
英文摘要
In this paper, we presents a semi-supervised sentiment analysis method, is divided into two stages. The first stage uses the unsupervised sentiment analysis approach that adopts a SO-PMI technique to build the emotion lexicon for different topics. And calculates the emotion score based on the topic emotion lexicon. The second stage analysis uses the supervised sentiment analysis approach that adopts the support vector machine(SVM). The new method proposed in this paper can automatically find the best threshold value of the first stage to select the data that needs to be entered into the second stage analysis.
  This study also considered the cost loss caused by the analysis error and manual marking. When other analysts do similar operations in the future, it is possible to judge whether the half-supervised affective analysis method is suitable according to the proportion of loss cost in this study.
第三語言摘要
論文目次
目錄
論文提要	I
Abstract	II
目錄	III
圖目錄	V
表目錄	VI
第一章、緒論	1
第一節、研究背景與動機	1
第二節、研究目的	2
第三節、論文架構	3
第四節、研究流程	3
第二章、文獻探討	5
第一節、中文斷詞處理	5
2.1.1 CKIP中文斷詞系統	5
2.1.2 R語言中的中文斷詞系統	6
第二節、詞彙極性	7
第三節、情感分析	10
第三章、研究方法	13
第一節、方法與架構	13
第二節、評估指標	16
第三節、半監督式情感分析介紹	18
3.3.1 第一階段 Part I:非監督式情感分析	18
3.3.2 第一階段Part II:找出最佳門檻值	19
3.3.3 第二階段:監督式情感分析	22
第四章、實例分析	23
第一節、資料描述及預處理	23
4.1.1 資料描述	23
4.1.2資料預處理	23
第二節、第一階段分析結果	24
第三節、第二階段分析結果	26
4.3.1 Book資料分析	26
4.3.2 Hotel資料分析	31
4.3.3 Notebook資料分析	36
第四節、小結	41
第五章、結論	42
第一節、總結	42
第二節、未來研究發展	43
參考文獻	44
附錄	46

圖目錄
圖 1. 4. 1 研究流程圖	4
圖 3. 1. 1 非監督式情感分析步驟	15
圖 3. 2. 1 cost值分解圖	17
圖 3. 3. 1 情感分數落於門檻值內示意圖	21
圖 4. 3. 1 Book資料當x:y=1:1時之cost值	28
圖 4. 3. 2 Book資料當x:y=1:2時之cost值	29
圖 4. 3. 3 Book資料當x:y=2:1時之cost值	30
圖 4. 3. 4 Hotel資料當x:y=1:1時之cost值	33
圖 4. 3. 5 Hotel資料當x:y=1:2時之cost值	34
圖 4. 3. 6 Hotel資料當x:y=2:1時之cost值	35
圖 4. 3. 7 Notebook資料當x:y=1:1時之cost值	38
圖 4. 3. 8 Notebook資料當x:y=1:2時之cost值	39
圖 4. 3. 9 Notebook資料當x:y=2:1時之cost值	40

表目錄
表 4. 1. 1 資料集描述	23
表 4. 2. 1 新生成的主題情緒詞庫描述	24
表 4. 3. 1 Book資料在不同成本以及n下得出之cost值	27
表 4. 3. 2 Hotel資料在不同成本以及n下得出之cost值	32
表 4. 3. 3 Notebook資料在不同成本以及n下得出之cost值 37
參考文獻
參考文獻
英文文獻:
1. B.Liu (2012), Sentiment Analysis and Opinion Mining, Synthesis Lectures on Human Language Technotogies, 5, 1-167
2. Church, Kenneth Ward, and Patrick Hands (1990), Word association norms, Mutual information, and lexicography. Computational linguistics, 16.1, 22-29.
3. Cortes, C. and Vapnik, V. (1995), Support-vector networks. Machine Learning, 20, 273-297.
4. Levene, Howard. (1960), Robust tests for equality of variances, Contributions to probability and statistics: Essays in honor of Harold Hotelling, 2, 278-292.
5. Turney, Peter, and Michael L. Littman. (2002), Unsupervised learning of semantic orientation from a hundred-billion-word corpus, Technical Report ERB-1094.
6. ZQ. Wang, X. Sun, DX. Zhang, and X. Li. (2006) , An Optimal SVM-Based Text Classification Algorithm, 2006 International Conference on Machine Learning and Cybernetics,1378-1381.

中文文獻:
7. 陳立(2010),「中文情感語意自動分類之研究」,臺灣師範大學資訊工程研究所學位論文。
8. 陳昱年(2013),「電影評論中情緒詞彙之極性分析」臺灣師範大學資訊工程研究所學位論文。
9. 顏安孜(2016),「中文部落格文章之相關性擷取與意見傾向分析之研究」,臺灣師範大學資訊工程研究所學位論文。
10. 劉炅函(2017),「中文情感分析應用於PTT之研究」,淡江大學統計學系碩士班學位論文。
11. 吳登揚(2017),「基於不同主題的中文情感分析技術比較」,淡江大學統計學系碩士班學位論文。
12. 陳景祥(2010),R軟體:應用統計方法,台北:台灣東華。
論文全文使用權限
校內
校內紙本論文立即公開
同意電子論文全文授權校園內公開
校內電子論文於授權書繳交後5年公開
校外
同意授權
校外電子論文於授權書繳交後5年公開

如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信