§ 瀏覽學位論文書目資料
  
系統識別號 U0002-2007201522504000
DOI 10.6846/TKU.2015.00589
論文名稱(中文) 國道計程電子收費實施後之網路輿情文本情感分析研究
論文名稱(英文) Sentiment Analysis of Internet Public Opinions After Introducing Distance-based Electronic Toll Collection on Taiwan's Freeway
第三語言論文名稱
校院名稱 淡江大學
系所名稱(中文) 運輸管理學系運輸科學碩士班
系所名稱(英文) Department of Transportation Management
外國學位學校名稱
外國學位學院名稱
外國學位研究所名稱
學年度 103
學期 2
出版年 104
研究生(中文) 陳亭愷
研究生(英文) Ting-Kai Chen
學號 602660036
學位類別 碩士
語言別 繁體中文
第二語言別
口試日期 2015-06-24
論文頁數 122頁
口試委員 指導教授 - 陶治中
指導教授 - 蕭瑞祥
委員 - 林祥生
委員 - 賴淑芳
關鍵字(中) 輿情分析
文本分類
情感分析
關鍵字(英) Public opinionAnalysis
TextClassification
SentimentAnalysis
第三語言關鍵字
學科別分類
中文摘要
我國民眾每日對於交通運輸系統倚賴程度甚深,近年隨著網際網路技術的成熟與普及,民眾已習慣於網路平台發表與分享使用交通運輸系統之經驗,若能針對使用者使用經驗回饋資訊進行有效的匯整分析,則有利於管理者即時掌握重要議題而擬訂對應的策略。
  本研究將資料探勘技術應用於交通資訊分析,藉由文獻彙整與專家討論歸納一包含文本蒐集、文本處理、文本分類、情感分析步驟之網路輿情分析模式,並將其應用於我國重大交通議題上,期望透過該模式對我國實施計程收費後之網路評論進行分析,並以此瞭解民眾對於網路評論下之話題情感趨勢。本研究透過爬蟲系統、程式對網路評論文本進行蒐集與處理,利用CKIP斷詞系統以及Microsoft Excel軟體進行文本斷詞與詞頻統計,然後運用Weka軟體進行文本分類及後續應用。為使本研究分析結果具可靠性,網路評論文本係經人工閱讀並歸納於對應分類,特徵項詞庫與情感詞庫的建置亦與專家討論,並以此作為文本分類與情感分析之重要基礎。
  經由實證分析結果可知,本研究所提出之適用於交通重大議題下網路評論文本分析模式具有良好的分析能力,顯示出特徵項詞庫的建構與分類器的選擇良好。在我國實施計程收費後之網路輿情分析上,民眾關注話題以收費員抗爭話題、高速公路壅塞話題、差別費率討論、計程收費與通行費討論為最多,顯見民眾較關心政策相關、產品使用經驗與實際上路遭遇之問題。在情感分析上,以累加每日情感值方式繪製時間-情感曲線圖,個別情感趨勢較呈現負面,可知熱門討論話題具有較多的抱怨內容,但整體而言可看出情感趨勢的走向逐漸轉正,顯示民眾已逐漸接受計程收費政策。
  綜整研究結果可發現,在本研究之網路輿情評論分析模式中,特徵項詞庫與情感詞庫在文本與情感分類上具有舉足輕重的影響,而情感曲線圖的繪製則需要長期的歷史資訊方可歸納出整體話題走向。本研究建構之網路輿情分析模式是以分析歷史資訊並提供分析流程,所分析出之結果除可供相關產業研究人員與決策者進行參考外,分析模式亦可作為未來自動化網路輿情評論分析系統之基礎。此外,本研究所提出之網路評論分析模式,亦可藉由修改特徵項詞庫、情感詞庫以及分類器的再訓練,供其它領域應用於分析評論時之參考。
英文摘要
The degree of relying on daily transportation systems is more and more significant for Taiwan’s people. Owing to ubiquitous Inernet technologies, they get used to share and express their viewpoints on experiencing transportation systems via network platforms. If managers can obtain these real-time public opinions, corresponding strategies can be provided effectively.
  The approach applying data mining technology to traffic information analysis in this study consists of text gathering, processing, classifying and sentiment analyzing. An empirical study on public opinions and sentiment analysis of distance-based Electronic Toll Collection on Taiwan’s Freeway is conducted. With the help of web crawler systems, ETC related text data are gathered and processed. Then text divisions and frequency statistics of keywords are completed by using CKIP system and Microsoft Excel. Eventually Weka software is used for text classifications and further applications .To assure results of this study more reliable, text classifications are made with manual reading. In addition, features and sentiment words database are also constructed by discussing with experts which will be fundamentals for text classification and sentiment analysis.
  The results verify the proposed model is valid for analyzing public opinions on transportation issues and there is no need to adjust text classifier and feature items. It is shown that people pay more attention to topics such as toll collector, freeway congestion, different rates, distance-based toll collection. As to sentiment analysis, daily accumulated sentiment values are used to draw curve graphs according to public opinions’ appearance trends. The results show the public opinions on distance-based Electronic Toll Collection on Taiwan’s Freeway have been accepted gradually.
  In conclusion, feature items from the internet public opinion analysis have great influence on text classification, and curve graphs need long-term historical data to identify evolving trends. The approach in this study can also applied to other disciplines by modifying text feature items and classifier.
第三語言摘要
論文目次
目錄
謝誌
中文摘要
英文摘要
表目錄	IX
圖目錄	X
第1章	緒論	1
1.1	研究背景與動機	1
1.2	研究目的	3
1.3	研究方法與流程	5
第2章	文獻回顧	8
2.1	知識工程分析理論	8
2.2	網路輿情分析方法相關研究	10
2.2.1	輿情系統概述	11
2.3	輿情情感文本分類方法	12
2.3.1	文本分類方法相關研究	16
2.3.2	文本分類方法小結	17
2.4	輿情情感傾向分析方法	18
2.4.1	輿情情感文本斷詞技術相關研究	19
2.4.2	輿情情感文本情感傾向分析相關研究	20
2.4.3	情感分析方法小結	26
2.5	小結	26
第3章	研究方法	28
3.1	輿情情感分析流程	28
3.1.1	文本分類流程	30
3.2	文本分類演算法	31
3.2.1	支持向量機(Support Vector Machine, SVM)演算法原理	31
3.2.2	貝氏分類	41
3.2.3	K鄰近演算法(K-Nearest Neighbor Algorithm, KNN)	46
3.2.4	潛在語意分析(Latent Semantic Analysis, LSA)演算法	47
3.2.5	文本分類演算法小結	50
3.3	向量空間模型與詞頻演算法	51
3.4	中文情感分析方法	53
3.5	CKIP斷詞系統	56
3.6	Weka分類軟體介紹	57
第4章	實證案例-計程收費輿情情感分析模式建構	58
4.1	計程收費網路輿情文本分類方法	61
4.1.1	爬蟲系統設計	62
4.1.2	特徵項與特徵量決定	65
4.1.3	文本數據轉換	66
4.1.4	Weka軟體操作說明	69
4.1.5	計程收費網路輿情文本分析結果	73
4.1.6	計程收費輿情文本分類小結	78
4.2	計程收費網路輿情情感分析	81
4.2.1	情感詞庫設計與情感值文本轉換	81
4.2.2	收費員話題情感分析結果	85
4.3	輿情情感趨勢分析	86
4.3.1	收費員抗爭話題	89
4.3.2	高速公路-假期壅塞相關話題	93
4.3.3	差別費率話題	97
4.3.4	通行費相關討論話題	99
4.3.5	計程收費相關討論話題	100
4.3.6	輿情情感趨勢小結	101
第5章	結論與建議	103
5.1	結論	103
5.2	建議	105
參考文獻	107
中文部份	107
英文部份	109

表目錄
表 2.1知識工程方法與自動訓練方法比較表	10
表 2.2 四位候選人在超過600篇報導下的平均正負性判讀結果	25
表 3.1 情感詞加權方法	55
表 4.1 計程收費輿情文本分類	61
表 4.2 爬蟲關鍵字詞庫	63
表 4.3 特徵項選擇	65
表 4.4 特徵項與特徵值	66
表 4.5 SMO訓練結果	74
表 4.6 SMO詳細分類結果	75
表 4.7 計程收費話題被分出文本	75
表 4.8 C-SVC參數訓練	76
表 4.9 C-SVC 詳細分類結果	77
表 4.10 計程收費話題被分出文本	77
表 4.11 C-SVC與SMO效能比較	79
表 4.12正、負向情感值區間	82
表 4.13正向情感辭庫	83
表 4.14負向情感辭庫	84
表 4.15 計程收費網路輿情文本數值化資料整理	87
表 4.16 計程收費網路輿情事件類型	88
表 4.17 收費員-抗爭話題  自救會國道抗議行動	90
表 4.18 收費員-抗爭話題  國道收費員自救會抗議活動	91
表 4.19 收費員-抗爭話題  國道收費員自救會抗議活動	91
表 4.20 收費員-抗爭話題  國道收費員自救會抗議活動	92
表 4.21 高速公路-假期壅塞話題  103年9月輿情情感趨勢	93
表 4.22 高速公路-假期壅塞話題  103年12月~104年1月輿情情感趨勢	94
表 4.23 高速公路-假期壅塞話題  104年2月輿情情感趨勢	95
表 4.24 高速公路-假期壅塞話題 104年3月~4月輿情情感趨勢	96
表 4.25 差別費率話題  103年8月~10輿情情感趨勢	97
表 4.26 差別費率話題  104年2月~3月輿情情感趨勢	98
表 4.27 通行費相關討論  103年9月~104年4月輿情情感趨勢	99
表 4.28 計程收費相關討論話題  103年9月~104年4月輿情情感趨勢	100
表 4.29輿情情感趨勢類型	101

圖目錄
圖 1.1 研究流程圖	7
圖 2.1知識挖掘與應用流程	13
圖 2.2聚類與分類的差異	15
圖 3.1計程收費輿情情感分析模式流程	29
圖 3.2特徵項選擇	30
圖 3.3線性可分類情況	32
圖 3.4線性不可分類情況映射於二維空間後可分類	32
圖 3.5高斯核函數的映設過程	35
圖 3.6支援向量示意圖	36
圖 3.7以樣本D為中心的領域知識	45
圖 3.8K-NN分類方法	46
圖 3.9向量空間模型	52
圖 3.10 CKIP斷詞系統	56
圖 4.1實證分析流程	60
圖 4.2計程收費輿情文本列表	64
圖 4.3 arff檔案內容	67
圖 4.4特徵值轉換程式	68
圖 4.5特徵值轉換程式-2	68
圖 4.6 Weka軟體主介面	69
圖 4.7文本預處理介面	70
圖 4.8文本數量構成	70
圖 4.9 文本分類介面	71
圖 4.10分類器選擇	72
圖 4.11 C-SVC設定	73
圖 4.12 SMO分類結果	74
圖 4.13 C-SVC分類結果	76
圖 4.14正、負向情感詞統計程式	81
圖 4.15收費員情感分類結果	85
圖 4.16 103年10~12月收費員輿情情感趨勢	90
圖 4.17 104年1~4月收費員話題輿情情感趨勢	92
圖 4.18 103年9月高速公路話題輿情情感趨勢	93
圖 4.19 103年12月~104年1月高速公路話題輿情情感趨勢	94
圖 4.20 104年2月高速公路話題輿情情感趨勢	95
圖 4.21 104年3月~4月高速公路話題輿情情感趨勢	96
圖 4.22 103年8月~10月差別費率話題輿情情感趨勢	97
圖 4.23 104年2月~3月差別費率話題輿情情感趨勢	98
圖 4.24 103年9月~104年4月通行費話題輿情情感趨勢	99
圖 4.25 103年9月~104年4月計程收費話題輿情情感趨勢	100
參考文獻
曾元顯(1997)。關鍵詞自動擷取技術與相關詞回饋。中國圖書館學會會報,
第59 期。
唐大任(2001)。中文斷詞器之研究。國立交通大學電信工程學系碩士班碩士論文,新竹。
黃純敏(2002)。TFIDF 與 GBP 方法於重要句子擷取績效評估,第十三屆國際資訊管理學術研討會。
曾元顯(2002)。文件主題自動分類成效因素探討。中國圖書館學會會報,第 68 期, 頁 62-83。
翁嘉緯(2003)。以型態辨識為主的中文資訊萃取技術研究。國立政治大學資訊科學學系碩士班碩士論文,臺北。
蔣禮芸(2004)。資訊萃取技術之探討。大學圖書館,第7卷2期,191-205。
李宜樺(2006)。改良式階層演算法研究,雲林科技大學資訊管理學系碩士論文,雲林。
申紅(2006)。文本分類的特徵提取方法比較與改進,計算機彷真,第23卷第3期。
黃翊軒(2007)。本體論為基之智慧型專利文件分類方法論研究。國立清華大學工業工程與工程管理學系碩士論文,新竹。
焉德葳(2007)。搜尋引擎與資訊索引中文斷詞方法。樹德科技大學資訊工程系研究所碩士論文,高雄。
吳俊儀(2008)。文件內容來源對文件績效之評估。,華梵大學資訊管理學系碩士班碩士論文,臺北。
于冬梅(2009)。情感計算關鍵技術研究,東華大學碩士論文。
李孟潔(2009)。利用機器學習作法之中文意見分析。台灣國立清華大學資訊工程碩士論文,新竹。
趙琨(2010)。非標準支持向量機(第一版),北京,對外經濟貿易大學出版社。
黃世源(2011)。自動摘要方法於新聞摘要之比較,雲林科技大學碩士論文,雲林。
楊惠淳(2011)。以主客觀分析與相互資訊檢索探討情感分析之準確度-以電影評論為例。國立臺北科技大學資訊與運籌管理研究所碩士論文,臺北。
謝麗星(2012)。基於層次結構的多策略中文微博情感分析和特徵抽取。中文信息學報,第26期。
游和正(2012)。領域相關詞彙極性分析及文件情緒分類之研究。臺灣大學資訊工程研究所碩士論文。
李濤(2013)。數據挖掘的應用與實踐-大數據時代的案例分析(第一版),廈門大學出版社。
黃心宜(2014)。基於影響力分析之意見單元評價的研究,淡江大學資訊管理學系碩士論文,臺北。
袁梅宇(2015)。王者歸來WEKA機器學習與大數據聖經(初版),臺灣台北市,佳魁資訊股份有限公司。
Data Mining:www.pws.stu.edu.tw/tntsai/DM/C-Chapter%201.ppt
演算法筆記:http://www.csie.ntnu.edu.tw/~u91029/Algorithm.html
支持向量機-維基百科:http://zh.wikipedia.org/wiki/%E6%94%AF%E6%8C%81%E5%90%91%E9%87%8F%E6%9C%BA
支持向量機通俗導論:blog.csdn.net/v_july_v/article/details/7624837
貝氏網路-wiki:http://zh.wikipedia.org/wiki/%E8%B2%9D%E6%B0%8F%E7%B6%B2%E8%B7%AF
貝氏分類:http://taibif.org.tw/informatics/?p=452
資料分群與樣式辨認:http://mirlab.org/jang/books/dcpr/index.asp
k鄰近演算法:http://mmdays.com/2007/05/16/knn/
Mchine Learning-knn:enginebai.logdown.com/posts/241676/knn
潛在語意分析:http://zh.wikipedia.org/wiki/%E6%BD%9C%E5%9C%A8%E8%AF%AD%E4%B9%89%E5%AD%A6

G. Salton, A. Wong, and C. S. Yang (1975). A Vector Space Model for Automatic Indexing, Communications of the ACM, vol. 18, pp. 613–620.
Janyce M. Wiebe (2000). Learning Subjective Adjectives from Corpora. Department of Computer Science, New Mexico State University.
Turney (2002). Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Review, Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics(ACL), pp. 417-424.
Bo Pang, Lilian Lee (2002). Thumbs up? Sentiment Classification using Machine Learning Techniques, Department of Computer Science Cornell University.
Mingqing Hu, and Bing Liu, (2004). Mining and summarizing customer reviews. In Proceedingsof ACM SIGKDD Conference on Knowledge Discovery and Data Mining 2004(KDD2004) , pp. 168-177.
Benjamin K.Y. Tsou, Raymond W.M. Yuen (2005). Polarity Classification of Celebrity Coverage in the Chinese Press.
Wilson T., Hoffmann P., Somasundaran S., Kessler J., Wiebe J., Choi Y., Cardie C., Riloff E., Patwardhan S. (2005). OpinionFinder: A System for Subjectivity Analysis, In: Proceedings of HLT-EMNLP’2005, pp. 34-35. 
Chavolit, P. & Zhou, L. (2005). Movie review Mining: a comparison between supervised and unsupervised. In proceedings of the 38th Hawaii International Conerence on System Sciences.
Tan, S. & Zhang, J. (2008). An empirical study of sentiment analysis for Chinese documents. Expert System with Applications, 34(4), 2622-2629.
TF-IDF Wiki:http://en.wikipedia.org/wiki/Tf%E2%80%93idf 
Web Crawler-Wiki Pedia, http://en.wikipedia.org/wiki/Web_crawler 
Web Crawlers.GoogleBot, http://www.milkaddict.com/web-crawlers-googlebot/
論文全文使用權限
校內
校內紙本論文立即公開
同意電子論文全文授權校園內公開
校內電子論文立即公開
校外
同意授權
校外電子論文立即公開

如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信