電子學位論文服務

§ 瀏覽學位論文書目資料

本論文電子全文於2019-07-16起於校外公開使用
本論文紙本於2019-07-16起公開使用

系統識別號	U0002-1407201904035300
DOI	10.6846/TKU.2019.00346
論文名稱(中文)	中文斷詞方法對情感分析的影響
論文名稱(英文)	The Influence of Chinese Word Segmentation Methods On Sentiment Analysis
第三語言論文名稱
校院名稱	淡江大學
系所名稱(中文)	大數據分析與商業智慧碩士學位學程
系所名稱(英文)	Master's Program In Big Data Analytics and Business Intelligence
外國學位學校名稱
外國學位學院名稱
外國學位研究所名稱
學年度	107
學期	2
出版年	108
研究生(中文)	陳恩齊
研究生(英文)	En-Ci Chen
學號	606890084
學位類別	碩士
語言別	繁體中文
第二語言別
口試日期	2019-07-01
論文頁數	35頁
口試委員	指導教授 - 陳景祥共同指導教授 - 李百靈委員 - 吳牧恩委員 - 陳麗菁
關鍵字(中)	文字探勘情感分析非監督式學習監督式學習
關鍵字(英)	text exploration sentiment analysis unsupervised learning supervised learning
第三語言關鍵字
學科別分類
中文摘要	隨著時代進步，網路的普及以及科技的進步，許多資料都已電子化，越來越多人關注文字之間的資訊，想要從一篇又一篇的文章中提取出關鍵訊息或是背後隱含的資訊。中文文章不像英文是以空白來分開每個字詞，所以在進行中文文字分析之前都需要進行斷詞一動作，然而因為資訊的普及，光是斷詞技術就有多種方法，這時候就會衍生一個問題，便是哪個斷詞方法比較好、或是哪個斷詞方法可以提升分析效果等等。本篇研究比較了四種斷詞方法，然後以新聞資料以及Hotel評價資料為基礎，並且使用情感分析來做比較，其中情感分類預測分別使用了非監督式學習以及監督式學習，最後計算兩類方法的預測正確率來評估四種斷詞系統的效果影響。
英文摘要	As, the popularity of the internet and the advancement of technology, most data have electronically digitized. More and more people are paying attention to the information among the texts, and they want to extract key messages or the information from these data. Unlike English, Chinese articles do not separate each word by blank, so it is necessary to perform a word segmentation action before the Chinese text analysis. However, because of the popularity of information, there are many word segmentation algorithms. A derived question is which word segmentation method is better, or which word segmentation method can improve the text analysis effects. This study compares the influences of four Chinese word segmentation methods, on sentiment analysis based on news data and Hotel evaluation data, Both supervied and unsupervised classification algorithms are compared in this study.
第三語言摘要
論文目次	第一章、緒論 1 第一節、研究背景 1 第二節、研究動機與目的 2 第三節、研究流程 3 第二章、文獻探討 4 第一節、中文文字處理 4 2.1.1、CKIP中文斷詞系統 4 2.1.2、R語言中的中文斷詞系統 5 2.1.3、Python語言中的中文斷詞系統 5 2.1.4、TF-IDF 6 第二節、詞語極性 6 第三節、深度學習 8 第四節、情感分析 9 第三章、分析方法 11 第一節、方法與架構 11 第二節、斷詞系統 11 3.1.1、jiebaR斷詞系統 11 3.1.2、jiagu斷詞系統 12 3.1.3、pkuseg斷詞系統 12 第三節、詞頻演算法 13 第四節、非監督式方法介紹 14 第四章、實證分析 16 第一節、計算環境 16 第二節、資料敘述及預處理 16 4.2.1、資料敘述 16 4.2.2、資料預處理 17 第三節、斷詞系統使用流程 17 4.3.1、jiagu斷詞系統 17 4.3.2、pkuseg斷詞系統 17 4.3.3、jiebaR斷詞系統 18 4.3.4、CKIP斷詞系統 18 第四節、方法比較 19 4.4.1、非監督式方法：加入種子詞到情緒詞庫 19 4.4.2、監督式方法 26 4.4.3 計算時間 31 第五節、小結 31 第五章、結論與建議 32 第一節、總結 32 第二節、未來研究發展 33 參考文獻 34 圖 1 研究流程圖 3 圖 2 Bi-LSTM架構 8 圖 3 非監督式方法流程圖 15 圖 4 正面文章預測正確率(新聞資料) 24 圖 5 負面文章預測正確率(新聞資料) 24 圖 6 正向、負向預測正確率趨勢圖(新聞資料) 25 圖 7 正面文章預測正確率(Hotel評論) 25 圖 8 負面文章預測正確率(Hotel評論) 26 圖 9 正向、負向預測正確率趨勢圖(Hotel評論) 26 圖 10 整體預測正確率(新聞資料) 30 圖 11 整體預測正確率(Hotel評論) 30 表 1 試驗資料 17 表 2 初始正向與負向種子個數(jiagu斷詞系統) 19 表 3 擴充後的正向與負向種子個數(jiagu斷詞系統) 19 表 4 預測正確率(jiagu斷詞系統) 20 表 5 初始正向與負向種子個數(pkuseg斷詞系統) 20 表 6 擴充後的正向與負向種子個數(pkuseg斷詞系統) 21 表 7 預測正確率(pkuseg斷詞系統) 21 表 8 初始正向與負向種子個數(jiebaR斷詞系統) 21 表 9 擴充後的正向與負向種子個數(jiebaR斷詞系統) 22 表 10 預測正確率(jiebaR斷詞系統) 22 表 11 初始正向與負向種子個數(CKIP斷詞系統) 22 表 12 擴充後的正向與負向種子個數(CKIP斷詞系統) 23 表 13 預測正確率(CKUP斷詞系統) 23 表 14 混淆矩陣(jiagu斷詞系統) 27 表 15 混淆矩陣(jiagu斷詞系統) 27 表 16 混淆矩陣(pkuseg斷詞系統) 28 表 17 混淆矩陣(pkuseg斷詞系統) 28 表 18 混淆矩陣(jiebaR斷詞系統) 28 表 19 混淆矩陣(jiebaR斷詞系統) 29 表 20 混淆矩陣(CKIP斷詞系統) 29 表 21 混淆矩陣(CKIP斷詞系統) 29 表 22 各方法計算時間表 31 表 23 四種方法優劣排序表 31 表 24 四種方法優劣排序表 32
參考文獻	中文文獻陳立，2010。中文情感語意自動分類之研究，臺灣師範大學資訊工程研究所學位論文。陳昱年，2013。電影評論中情緒詞彙之極性分析，臺灣師範大學資訊工程研究所學位論文。黃萱菁、趙軍，2008。中文文本情感倾向性分析，中國計算機學會通訊。卡橋安，2018。音訊的音樂結構區隔，國立清華大學資訊工程研究所學位論文。陳翰，2018。從社群媒體挖掘以感測日常交通滿意度之研究，淡江大學運輸管理學系運輸科學所學位論文。李政儒、游基鑫、陳信希，2012。廣義知網詞彙意見極性的預測，Computational Linguistics and Chinese Language Processing, 17(2), 2012, pp. 21-36 江易麇，2018。應用雙向長短期記憶神經網路於新聞分類，國立雲林科技大學資訊管理所學位論文。陳立麟，2017。雙向循環神經網路之離線連體與重疊手寫數字辨識，國立東華大學資訊工程所學位論文。陳傅生，2015。使用廣義知網於情感詞彙之極性分析研究，國立臺灣師範大學資訊工程所學位論文。吳登揚，2017。基於不同主題的中文情感分析技術比較，淡江大學統計所學位論文。許家銘，2017。情感分析應用於社群媒體輿論分析之研究，國立中央大學資訊管理所學位論文。黃仁鵬、張貞瑩，2014。運用詞彙權重技術於自動文件摘要之研究，中華民國資訊管理學報，第二十一卷，第四期，頁 391-416。英文文獻 Corinna Cortes, and Vladimir Vapnik. ,1995. Support-Vector Networks, Machine Learning, 20, 273-297. Church, Kenneth Ward, and Patrick Hanks ,1990. Word association norms, nutual information, and lexicography. Computational linguistics 16.1, 22-29. Turney, Peter, and Michael L. Littman. ,2002. Unsupervised learning of semantic orientation from a hundred-billion-word corpus, Technical Report EGB-1094. ZQ. Wang, X. Sun, DX. Zhang, and X. Li ,2006. An Optimal SVM-Based Text Classification Algorithm, 2006 International Conference on Machine Learning and Cybernetics,1378-1381.
論文全文使用權限	校內：校內紙本論文立即公開同意電子論文全文授權校園內公開校內電子論文立即公開校外：同意授權校外電子論文立即公開

返回頁首

如有問題，歡迎洽詢！
圖書館數位資訊組　(02)2621-5656 轉 2487 或來信