淡江大學覺生紀念圖書館 (TKU Library)
進階搜尋


下載電子全文限經由淡江IP使用) 
系統識別號 U0002-1407201904035300
中文論文名稱 中文斷詞方法對情感分析的影響
英文論文名稱 The Influence of Chinese Word Segmentation Methods On Sentiment Analysis
校院名稱 淡江大學
系所名稱(中) 大數據分析與商業智慧碩士學位學程
系所名稱(英) Master's Program In Big Data Analytics and Business Intelligence
學年度 107
學期 2
出版年 108
研究生中文姓名 陳恩齊
研究生英文姓名 En-Ci Chen
學號 606890084
學位類別 碩士
語文別 中文
口試日期 2019-07-01
論文頁數 35頁
口試委員 指導教授-陳景祥
共同指導教授-李百靈
委員-吳牧恩
委員-陳麗菁
中文關鍵字 文字探勘  情感分析  非監督式學習  監督式學習 
英文關鍵字 text exploration  sentiment analysis  unsupervised learning  supervised learning 
學科別分類
中文摘要 隨著時代進步,網路的普及以及科技的進步,許多資料都已電子化,越來越多人關注文字之間的資訊,想要從一篇又一篇的文章中提取出關鍵訊息或是背後隱含的資訊。中文文章不像英文是以空白來分開每個字詞,所以在進行中文文字分析之前都需要進行斷詞一動作,然而因為資訊的普及,光是斷詞技術就有多種方法,這時候就會衍生一個問題,便是哪個斷詞方法比較好、或是哪個斷詞方法可以提升分析效果等等。本篇研究比較了四種斷詞方法,然後以新聞資料以及Hotel評價資料為基礎,並且使用情感分析來做比較,其中情感分類預測分別使用了非監督式學習以及監督式學習,最後計算兩類方法的預測正確率來評估四種斷詞系統的效果影響。
英文摘要 As, the popularity of the internet and the advancement of technology, most data have electronically digitized. More and more people are paying attention to the information among the texts, and they want to extract key messages or the information from these data. Unlike English, Chinese articles do not separate each word by blank, so it is necessary to perform a word segmentation action before the Chinese text analysis. However, because of the popularity of information, there are many word segmentation algorithms. A derived question is which word segmentation method is better, or which word segmentation method can improve the text analysis effects. This study compares the influences of four Chinese word segmentation methods, on sentiment analysis based on news data and Hotel evaluation data, Both supervied and unsupervised classification algorithms are compared in this study.
論文目次 第一章、緒論 1
第一節、研究背景 1
第二節、研究動機與目的 2
第三節、研究流程 3
第二章、文獻探討 4
第一節、中文文字處理 4
2.1.1、CKIP中文斷詞系統 4
2.1.2、R語言中的中文斷詞系統 5
2.1.3、Python語言中的中文斷詞系統 5
2.1.4、TF-IDF 6
第二節、詞語極性 6
第三節、深度學習 8
第四節、情感分析 9
第三章、分析方法 11
第一節、方法與架構 11
第二節、斷詞系統 11
3.1.1、jiebaR斷詞系統 11
3.1.2、jiagu斷詞系統 12
3.1.3、pkuseg斷詞系統 12
第三節、詞頻演算法 13
第四節、非監督式方法介紹 14
第四章、實證分析 16
第一節、計算環境 16
第二節、資料敘述及預處理 16
4.2.1、資料敘述 16
4.2.2、資料預處理 17
第三節、斷詞系統使用流程 17
4.3.1、jiagu斷詞系統 17
4.3.2、pkuseg斷詞系統 17
4.3.3、jiebaR斷詞系統 18
4.3.4、CKIP斷詞系統 18
第四節、方法比較 19
4.4.1、非監督式方法:加入種子詞到情緒詞庫 19
4.4.2、監督式方法 26
4.4.3 計算時間 31
第五節、小結 31
第五章、結論與建議 32
第一節、總結 32
第二節、未來研究發展 33
參考文獻 34

圖 1 研究流程圖 3
圖 2 Bi-LSTM架構 8
圖 3 非監督式方法流程圖 15
圖 4 正面文章預測正確率(新聞資料) 24
圖 5 負面文章預測正確率(新聞資料) 24
圖 6 正向、負向預測正確率趨勢圖(新聞資料) 25
圖 7 正面文章預測正確率(Hotel評論) 25
圖 8 負面文章預測正確率(Hotel評論) 26
圖 9 正向、負向預測正確率趨勢圖(Hotel評論) 26
圖 10 整體預測正確率(新聞資料) 30
圖 11 整體預測正確率(Hotel評論) 30

表 1 試驗資料 17
表 2 初始正向與負向種子個數(jiagu斷詞系統) 19
表 3 擴充後的正向與負向種子個數(jiagu斷詞系統) 19
表 4 預測正確率(jiagu斷詞系統) 20
表 5 初始正向與負向種子個數(pkuseg斷詞系統) 20
表 6 擴充後的正向與負向種子個數(pkuseg斷詞系統) 21
表 7 預測正確率(pkuseg斷詞系統) 21
表 8 初始正向與負向種子個數(jiebaR斷詞系統) 21
表 9 擴充後的正向與負向種子個數(jiebaR斷詞系統) 22
表 10 預測正確率(jiebaR斷詞系統) 22
表 11 初始正向與負向種子個數(CKIP斷詞系統) 22
表 12 擴充後的正向與負向種子個數(CKIP斷詞系統) 23
表 13 預測正確率(CKUP斷詞系統) 23
表 14 混淆矩陣(jiagu斷詞系統) 27
表 15 混淆矩陣(jiagu斷詞系統) 27
表 16 混淆矩陣(pkuseg斷詞系統) 28
表 17 混淆矩陣(pkuseg斷詞系統) 28
表 18 混淆矩陣(jiebaR斷詞系統) 28
表 19 混淆矩陣(jiebaR斷詞系統) 29
表 20 混淆矩陣(CKIP斷詞系統) 29
表 21 混淆矩陣(CKIP斷詞系統) 29
表 22 各方法計算時間表 31
表 23 四種方法優劣排序表 31
表 24 四種方法優劣排序表 32
參考文獻 中文文獻
陳立,2010。中文情感語意自動分類之研究,臺灣師範大學資訊工程研究所學位論文。
陳昱年,2013。電影評論中情緒詞彙之極性分析,臺灣師範大學資訊工程研究所學位論文。
黃萱菁、趙軍,2008。中文文本情感倾向性分析,中國計算機學會通訊。
卡橋安,2018。音訊的音樂結構區隔,國立清華大學資訊工程研究所學位論文。
陳翰,2018。從社群媒體挖掘以感測日常交通滿意度之研究,淡江大學運輸管理學系運輸科學所學位論文。
李政儒、游基鑫、陳信希,2012。廣義知網詞彙意見極性的預測,Computational Linguistics and Chinese Language Processing, 17(2), 2012, pp. 21-36
江易麇,2018。應用雙向長短期記憶神經網路於新聞分類,國立雲林科技大學資訊管理所學位論文。
陳立麟,2017。雙向循環神經網路之離線連體與重疊手寫數字辨識,國立東華大學資訊工程所學位論文。
陳傅生,2015。使用廣義知網於情感詞彙之極性分析研究,國立臺灣師範大學資訊工程所學位論文。
吳登揚,2017。基於不同主題的中文情感分析技術比較,淡江大學統計所學位論文。
許家銘,2017。情感分析應用於社群媒體輿論分析之研究,國立中央大學資訊管理所學位論文。
黃仁鵬、張貞瑩,2014。運用詞彙權重技術於自動文件摘要之研究,中華民國資訊管理學報,第二十一卷,第四期,頁 391-416。


英文文獻
Corinna Cortes, and Vladimir Vapnik. ,1995. Support-Vector Networks, Machine Learning, 20, 273-297.
Church, Kenneth Ward, and Patrick Hanks ,1990. Word association norms, nutual information, and lexicography. Computational linguistics 16.1, 22-29.
Turney, Peter, and Michael L. Littman. ,2002. Unsupervised learning of semantic orientation from a hundred-billion-word corpus, Technical Report EGB-1094.
ZQ. Wang, X. Sun, DX. Zhang, and X. Li ,2006. An Optimal SVM-Based Text Classification Algorithm, 2006 International Conference on Machine Learning and Cybernetics,1378-1381.
論文使用權限
  • 同意紙本無償授權給館內讀者為學術之目的重製使用,於2019-07-16公開。
  • 同意授權瀏覽/列印電子全文服務,於2019-07-16起公開。


  • 若您有任何疑問,請與我們聯絡!
    圖書館: 請來電 (02)2621-5656 轉 2486 或 來信