§ 瀏覽學位論文書目資料
  
系統識別號 U0002-0702201713544400
DOI 10.6846/TKU.2017.00231
論文名稱(中文) 應用文字探勘技術於台北市政府施政滿意度分析
論文名稱(英文) Analysis of Satisfaction to Administer of Taipei City Government with Text Mining Techniques
第三語言論文名稱
校院名稱 淡江大學
系所名稱(中文) 統計學系應用統計學碩士班
系所名稱(英文) Department of Statistics
外國學位學校名稱
外國學位學院名稱
外國學位研究所名稱
學年度 105
學期 1
出版年 106
研究生(中文) 王雅芬
研究生(英文) YA-FEN WANG
學號 603650051
學位類別 碩士
語言別 繁體中文
第二語言別
口試日期 2016-01-14
論文頁數 44頁
口試委員 指導教授 - 陳景祥(097512@mail.tku.edu.tw)
委員 - 李百靈(129354@mail.tku.edu.tw)
委員 - 何宗武(tsungwu@mail.shu.edu.tw)
關鍵字(中) 施政滿意度
網路輿情
情感分析
文字探勘
關鍵字(英) internet public opinion
Satisfaction
sentiment analysis
text mining
第三語言關鍵字
學科別分類
中文摘要
隨著網際網路的發展與普及,越來越多人在網路上發表想法或意見,形成台灣人民對政治事件、政治人物看法的網路輿情。運用文字探勘方法,我們能夠彙整網路上的文本資料,取出資訊進行輿情分析,從而更了解人民對於當今政府政策相關的意見,幫助執政者調整政策方向或執政方式。
本研究藉由SO-PMI方法及資訊增益的方法擴充情感詞典,比較
TF-IDF變數表示法、情感變數表示法以及多變數表示法對文章進行情感分析,結合網路輿情指標,以評估民眾對台北市政府施政的滿意程度。本研究結論為使用多變數表示法和支持向量機進行情感分類結果較好,用議題相近的文本建模能提昇預測準確率,本研究提出的評估滿意度方法可輔助民調,一同評估市民對北市府的滿意程度。
英文摘要
As new technologies advances, internet become more popular. More and more person states their opinion on internet. In democratic society, people have suffrage and freedom of speech. People always share their opinions about policy on the internet. To know the opinions of people, we must employ a lot of employees to make phone-based poll in the past. Nowadays, we can crawl and download the articles easily on the internet and use the text mining techniques to deal with political issues. Then, we can estimate the sentiment orientations of political articles and show the political orientations of internet users.
This paper uses semantic orientation from PMI method and information gain method to add sentimental terms in sentimental dictionary. We make comparison between TF-IDF variable, sentimental variable and combined variable models in the classification of sentiment. We also build the model of sentiment analysis and develop an internet public opinion index to estimate the degree of satisfaction to administer of Taipei City Government of Taipei’s citizen.
With the best accuracy and excellent stability, Support Vector Machine is the best choice for us to do the sentimental classification. If the topic of training data is similar to the topic of the testing data, the testing accuracy will be higher. Do text mining analysis for internet texts is helpful for us to analyze internet public opinions.
第三語言摘要
論文目次
目錄
目錄	V
表目錄	VII
圖目錄	VIII
第一章	緒論	1
1.1 研究背景與動機	1
1.2 研究目的	3
1.3 研究架構	4
第二章	文獻探討	6
2.1 情感分類	6
2.1.1 語意傾向點互資訊	6
2.1.2 資訊增益	8
2.1.3 情感分類	9
2.2 網路輿情分析	10
2.2.1 指標	10
2.2.2 指標權重	12
第三章	研究方法	13
3.1 分析流程	13
3.2 情感詞典擴展	15
3.3 分類器	17
3.3.1 C5.0決策樹	17
3.3.2 支持向量機	18
3.3.3 簡單貝氏分類器	18
3.4 文章情感分類	19
3.5 網路輿情分析綜合指標	21
第四章	實例分析	23
4.1 資料收集與前置處理	23
4.2 情感分析	25
4.2.1 變數表示法	25
4.2.2 柯文哲文章模型配適與交叉驗證	27
4.2.3 預測臺北燈節文章情感分類	30
4.2.4 小結	34
4.3 主題滿意度分析	35
第五章	結論與建議	40
5.1 結論	40
5.2 建議	41
參考文獻	42
英文參考文獻	42
中文參考文獻	43
表目錄
表 1網路輿情監測指標體系	11
表 2文件-字詞矩陣範例	20
表 3柯文哲文本建模配適準確率	28
表 4柯文哲文本建模10次交叉驗證測試準確率	29
表 5臺北燈節文本建模配適準確率	31
表 6臺北燈節文本建模10次交叉驗證準確率	31
表 7柯文哲文本建模預測臺北燈節主題情感分類	33
圖目錄
圖 1研究流程	5
圖 2分析流程	14
圖 3文章數日變化	35
圖 4活力度日變化	36
圖 5文章熱度日變化	37
圖 6文章日平均情感變化	38
參考文獻
參考文獻
英文參考文獻
	Lewis, David. D. (1998). Naive (Bayes) at Forty: The Independence Assumption in Information Retrieval. Machine Learning: ECML-98,1398,4-15
	Quinlan, J. R. (1979). Discovering rules by induction from large collections of examples: A case study. In D. Michie (Ed.), Expert systems in the Micro electronic Age (pp. 168-201). Edinburgh University Press.
	Saaty, T.L. (1980). The Analytic Hierarchy Process. McGraw-Hill.
	Turney, Peter. (2001). Mining the Web for Synonyms : PMI-IR Versus LSA on TOEFL Mining the Web for Synonyms : PMI-IR Versus LSA on TOEFL. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics),2167, 491-502.
	Turney, Peter. D. (2003). Measuring Praise and Criticism: Inference of Semantic Orientation from Association. ACM Transactions on Information Systems,21(4),315-346.
	Vapnik V, Lerner A. (1963). Pattern recognition using generalized portrait method. Automation and Remote Control, 24, 774–780.
	Yuen, Raymond. W. M. Chan,Terence. Y. W. Lai,Tom. B.Y. Kwong,O.Y. T’sou, Benjamin.K.Y. (2004). Morpheme-based derivation of bipolar semantic orientation of Chinese words. Proceeding of the 〖20〗_th International Conference on Computational Linguistics, 1008-1014. 
doi: 10.3115/1220355.1220500
 
中文參考文獻
	王波(2011)。基於跨領域知識的基金評論情感分析。情報雜誌,30(2),44-47。
	吳金源、冀俊忠、趙學武、吳晨生、杜芳華(2016)。基於特徵選擇技術的情感詞權重計算。北京工業大學學報,42(1),142-151。
	唐慧豐、譚松波、程學旗 (2007) 。基於監督學習的中文情感分類技術比較研究。中文信息學報,21(6),88-108。
	郝沛毅、李御璽、黃嘉彥(2014)。資料探勘。新北市。高立圖書。
	陳伯璿、周昱璇、胡舜詅、劉揚銘(2016)。解讀Ptt:台灣最有影響力的網路社群。數位時代‧261‧82-115。
	陳新杰、呼雨、蘭月新(2012)。網絡輿情監測指標體系構建研究。現代情報,32(5),4-20。
	董梅、胡學鋼(2007)。基於多特徵選擇的中文文本分類。計算機技術與發展,17(7),117-134。
	蔡紀眉(2015)。最新數據:台灣每天有1300萬人滑臉書。聯合新聞網。取自http://udn.com/news/index
	戴媛、姚飛(2008)。基於網路輿情安全的信息挖掘及評估指標體系研究。實踐研究,31(6),873-876。
	謝海光、陳中潤(2006)。互聯網內容及輿情深度分析模式。中國青年政治學院學報,3,95-100。
	簡禎富、許嘉裕(2015)。資料挖礦與大數據分析。新北市。前程文化。
論文全文使用權限
校內
紙本論文於授權書繳交後5年公開
同意電子論文全文授權校園內公開
校內電子論文於授權書繳交後5年公開
校外
同意授權
校外電子論文於授權書繳交後5年公開

如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信