§ 瀏覽學位論文書目資料
  
系統識別號 U0002-1707201208034600
DOI 10.6846/TKU.2012.00693
論文名稱(中文) 部落格文章情感分析之研究
論文名稱(英文) A study of sentimental analysis in blog articles
第三語言論文名稱
校院名稱 淡江大學
系所名稱(中文) 資訊管理學系碩士班
系所名稱(英文) Department of Information Management
外國學位學校名稱
外國學位學院名稱
外國學位研究所名稱
學年度 100
學期 2
出版年 101
研究生(中文) 簡之文
研究生(英文) Chih-Wen Chien
學號 699630058
學位類別 碩士
語言別 繁體中文
第二語言別
口試日期 2012-05-26
論文頁數 52頁
口試委員 指導教授 - 蕭瑞祥(rsshaw@mail.tku.edu.tw)
委員 - 陸承志
委員 - 吳瑞堯
委員 - 侯永昌
關鍵字(中) 情感分析
支援向量機
知網
主觀情緒
關鍵字(英) sentimental analysis
SVM
hownet
subjective emotion
第三語言關鍵字
學科別分類
中文摘要
如何在龐大的網路社群文章中,有效且快速的擷取所要的情感評論,是情感分析(Sentiment Analysis)重要的基礎工作,本研究選擇在語句層級探討,分析文章中的主觀情緒評論語句。嘗試找出主觀情緒語句與非主觀情緒語句的判斷模式。本研究採用系統發展研究法,使用SVM(Support Vector Machine)工具將主觀情緒語句進行訓練與測試,實驗中再將SVM產出的分類與實際分類做比對,計算其準確率做為系統驗證的依據。
根據本研究的實驗發現,依據SVM工具產出的分類,若將屬性詞與意見片語之距離容許誤差值設為3,可大幅提升距離分類準確率,且可減少距離比對的運算成本,而屬性詞類的分類特徵較能區分主觀情緒語句與意見片語距離的關係,與相關研究中的演算法比較後,可將過濾非主觀情緒階段的準確率提升13%,達到66%。期望本研究能為部落格,甚至其他社群網路情感分析之研究與實務有所貢獻。
英文摘要
How to capture the emotional opinion efficiently and quickly in a lot of network community articles is an important basic work for Sentiment Analysis. This study is discussed in the sentence-level analysis of the subjective emotional comment sentences in the article, and tries to find out a judgment model of subjective emotional sentences and non-subjective emotional sentences. This study adopts Systems Development Methodology, and it uses SVM tool to train and test the subjective emotional sentences. In this experiment, it compares the classification of SVM with the actual classification and it calculates the accuracy as the basis for system verification.
On the basis of the classification of SVM, this study found if the tolerance value of the distance between attribute word and opinion phrase is set to 3, it will significantly improve the accuracy of distance classification and reduce the computing cost of distance comparison, and then the classification feature of the attribute words is better than negative words and opinion words in recognizing the distance relationship between attribute word and opinion phrase.
第三語言摘要
論文目次
目次	III
表目錄	IV
圖目錄	V
第一章	緒論	1
1.1	研究背景與動機	1
1.2	研究目的	2
第二章	文獻探討	4
2.1	斷詞系統	4
2.2	SVM(SUPPORT VECTOR MACHINE)	6
2.3	情緒分析(SENTIMENT ANALYSIS)架構	7
第三章	研究方法	23
第四章	雛型系統	26
4.1	 雛型系統架構	26
4.2	 雛型系統運作流程	27
第五章	實驗設計	31
5.1	 實驗設計	31
5.2	 實驗流程	33
實驗1. 精確率分析	35
實驗2. 容許誤差精確率	36
實驗3. 特徵分類相關程度	37
實驗4. 運算成本比較	40
實驗5. 過濾非主觀情緒比較	43
第六章	結論及未來發展	46
第七章	參考資料	48

表目錄

表 1 中研院平衡語料庫詞類標記集(摘錄)	5
表 2 各種時間表達方式之例句	11
表 3 關聯資料特徵表	32
表 4 限定距離於前後10字詞之準確率	35
表 5 誤差範圍從1至10做各誤差距離支準確率	37
表 6 屬性分類表	38
表 7 各分類屬性之誤差準確率	38

圖目錄

圖 1 兩種可能將資料分開的超平面	7
圖 2 情緒分析架構圖	8
圖 3 系統發展研究流程	24
圖 4 本研究部落格文章情感分析系統架構圖	26
圖 5 本研究雛型系統運作流程	28
圖 6 SVM訓練格式	34
圖 7 本研究實驗流程	34
圖 8 誤差範圍從1至10做各誤差距離的準確率折線圖	36
圖 9 誤差範圍從1至10做各誤差距離的準確率折線圖	37
圖 10 各特徵詞類的準確率	39
圖 11 未使用距離分類算法之比對順序	41
圖 12 使用SVM距離分類算法之比對順序	42
圖 13 運算成本變化比較圖	43
圖 14 非主觀情緒過濾準確率比較圖	44
參考文獻
1.	王正豪、李啟菁,《中文部落格文章之意見分析》,碩士論文,國立台北科技大學資訊工程研究所,2010。
2.	林晏僖、高照明、高成炎,《中文名詞組的辨識:監督式與半監督式學習法的實驗》,2008自然語言與語音處理研討會,頁180-193,台北,2010。
3.	林智仁,< Welcome to Chih-Jen's Lin's Home Page >,網址:http://www.csie.ntu.edu.tw/~cjlin/index.html,上網日期:2012年2月1日。
4.	孫瑛澤、陳建良、劉峻杰、劉昭麟、蘇豐文,〈中文短句之情緒分類〉,2010自然語言與語音處理研討會,頁184-198,暨南大學,2010。
5.	高照明,〈中文詞彙語意資料的整合與擷取:詞彙語意學的觀點〉,2007自然語言與語音處理研討會,頁257-272,台北,2010。
6.	黃文奇、吳世弘、陳良圃、谷圳,〈中文文字蘊涵系統之特徵分析〉,2011自然語言與語音處理研討會,頁281-296,台北,2011。
7.	楊昌樺、陳信希,〈以部落格文本進行情緒分類之研究〉,2006自然語言與語音處理研討會,交通大學,2006。
8.	楊昌樺、高虹安、陳信希,〈以部落格語料進行情緒趨勢分析〉,2007自然語言語音處理研討會,頁205-218,台北,2007。
9.	楊萍華、張嘉惠,《部落格意見檢索系統之設計-部落格內文之擷取與不相關部落格之過濾》,碩士論文,國立中央大學資訊工程所,2009。
10.	楊盛帆、陸承志,《以整合式規則來做網路論壇上的3C產品口碑分析》,碩士論文,元智大學資訊管理研究所,2009。
11.	Hu, M., and Liu, B., “Mining Opinion Features in Customer Reviews,” Proceedings of the 19th National Conference on Artificial Intelligence, 2004, pp. 755-76.
12.	Hu, M., and Liu, B., “Mining and Summarizing Customer Reviews,” Proceedings of  he 10th ACM International Conference on Knowledge Discovery and Data Mining (SIGKDD-2004), 2004, pp. 168–174.
13.	Jindal, N., and Liu, B., “Mining Comparative Sentences and Relations,” AAAI., 2006, pp. 1331-1336.
14.	Ku, L. W., and Chen, H.H., “Mining Opinions from the Web Beyond,” Journal of American Society for Information Science and Technology, 2007, pp. 1838-1850.
15.	Liu, B., Encyclopedia of Database Systems, 2004.
16.	Liu, B., Sentiment Analysis and Subjectivity. Natural Language Processing, 2010.
17.	Liu, B., “Opinion Observer: Analyzing and Comparing Opinions on the Web,” In Proceedings of the 14th international Conference on World Wide Web, Japan, 2005, pp. 342-351.
18.	Nunamaker, J. R., Chen, J. F., and Purdin, T. D. M., “Systems Development in Information Systems Research,” Journal of Management Information Systems, Vol. 7, 1991, pp. 89-106.
19.	Ounis, I., Rijke, M., Macdonald, C., Mishne, G., and Soboroff, I., “Overview of the TREC-2006 Blog Track,” In Proceedings of TREC-2006,  USA, 2007.
20.	Pang, B., and Lee, L., “A sentimental education: sentiment analysis using subjectivity summarization based on minimum cuts,” In Proc. 42nd ACL, Spain, 2004, pp. 271-278.
21.	Taku, K., and Yuki, M., “Use of Support Vector Learning for Chunk Identification,” Proceeding of CoNLL-2000, Lisbon, 2000, pp. 142-144.	
22.	Vapnik,N. V., The Nature of Statistical Learning Theory. Springer, 1995.
23.	Wan, X. J., “Using bilingual knowledge and ensemble techniques for unsupervised Chinese sentiment analysis” In Proceedings of Empirical Methods in Natural Language Processing, 2008, pp. 553-561.
24.	Kobayashi, N., Inui, K., and Matsumoto, Y., “Opinion Mining from Web Documents: Extraction and Structurization” Information and Media Technologies, Vol. 2, 2007, pp. 326-337.
25.	Wu, C. h., Chuang, Z. J., and Lin, Y. C., “Emotion recognition from text using semantic labels and separable mixture models” ACM Transactions on Asian Language Information Processing, Vol. 5, 2006, pp. 165-183.
26.	Fuketa, M., Kadoya, Y., Atlam, E., Kunikata, T., Morita, K., Kashiji, S., and Aoe, J.-I., “A method of extracting and evaluating good and bad reputations for natural language expressions” International Journal of Information Technology and Decision Making,Vol. 4, 2005, pp. 177-196.
27.	Hatzivassiloglou, V., and  Mckeown, K., “Predicting the semantic orientation of adjectives” Proceedings of the eighth conference on European chapter of the Association for Computational Linguistics, 1997, pp.174-181.
28.	Ding, X., Liu, B. and Yu, P. S., “A holistic lexicon-based approach to opinion mining” Proceedings of the international conference on Web search and web data mining, Palo Alto, California, USA, 2008, pp.231-240.
29.	Esuli, A., and Sebastiani, F., “PageRanking WordNet synsets: An application to opinion mining” Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics, 2007, pp.424-431.
30.	Yang, C. H., Lin, H. Y., and Chen, H. H., “Emotion Classification Using Web Blog Corpora” Proceedings of the IEEE/WIC/ACM International Conference on Web Intelligence, 2007, pp.275-278.
論文全文使用權限
校內
校內紙本論文立即公開
同意電子論文全文授權校園內公開
校內電子論文立即公開
校外
同意授權
校外電子論文立即公開

如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信