§ 瀏覽學位論文書目資料
  
系統識別號 U0002-1806201721250700
DOI 10.6846/TKU.2017.00608
論文名稱(中文) 基於詞性組合的意見字典擴增方法之研究
論文名稱(英文) A Study on Opinion Dictionary expansion based on Part-of-Speech combination
第三語言論文名稱
校院名稱 淡江大學
系所名稱(中文) 資訊管理學系碩士班
系所名稱(英文) Department of Information Management
外國學位學校名稱
外國學位學院名稱
外國學位研究所名稱
學年度 105
學期 2
出版年 106
研究生(中文) 王雅詩
研究生(英文) Ya-Shih Wang
學號 604630011
學位類別 碩士
語言別 繁體中文
第二語言別
口試日期 2017-06-02
論文頁數 62頁
口試委員 指導教授 - 蕭瑞祥
委員 - 翁頌舜
委員 - 戴敏育
關鍵字(中) 詞性組合
意見字典
字典擴增
關鍵字(英) Part-of-Speech combination
Opinion dictionary
Dictionary expansion
第三語言關鍵字
學科別分類
中文摘要
許多以字典為基礎之意見分析的研究,會採用不同的領域文章作為研究語料,然而常用於學術研究之HowNet與NTUSD…等意見字典,其應用對象為通用中文文章,缺少特定領域意見詞彙。因此,許多研究者在使用特定領域的研究語料時,會透過人工方式擴增意見詞,雖然詞彙正確率高,但要提升意見詞彙之涵蓋率,就必須耗費相當多人力,缺乏效率。本研究建置一套基於詞性組合的詞彙擴增雛型系統,實踐意見詞彙擴增流程,並以美食和美妝領域的產品評論當作研究語料,透過詞性組合抽取候選的領域意見詞彙,並進行詞彙相似度分群後,透過計算之目標領域內的代表詞過濾無效的候選意見詞彙。最後在意見詞彙正負極性判斷部分,本研究自HowNet與NTUSD內選取正負情感種子詞彙,並以意見詞彙與種子詞彙的平均距離做為權重進行基於語料庫的SO-PMI運算,決定候選意見詞彙的正負情感傾向,以產生領域意見字典。經本研究涵蓋率與文章情感分類實驗之結果顯示,將HowNet與NTUSD結合本研究之所擴增之意見詞彙後,於美食領域中,意見詞彙涵蓋率約提升了11%,文章情感分類之準確率則提升約5%,美妝領域則是詞彙涵蓋率提升約17%、準確率提升約6%,綜合實驗結果可證明意見詞彙涵蓋率的提升對於意見分析有正面之影響。期望本研究對於使用特定領域文章作為研究語料之情形,可以提升詞彙涵蓋率並增加意見分析之成效。
英文摘要
A great number of dictionary-based research based on dictionary and diverse article. However, there are few Chinese opinion dictionaries from specific domain. Therefore, many researcher expanse Chinese opinion dictionary manually. Though it reached high accuracy and coverage but expensive and low efficiency.
The study developed a prototype based on the combination of Part-of-Speech to expand the opinions words with the reviews from iPeen, TripAdvisor, Yelp, UrCosme and FashionGuide. In addition, we extract the candidate domain opinion words with Part-of-Speech, and use the average distance with opinion words for the calculation of SO-PMI. And then, the study according to the result to determined sentiment tendency and opinion word generation.
The present study expect the improvement of coverage and opinion analysis with the article from specific domain.
第三語言摘要
論文目次
目錄

 第一章 導論...1
	1.1 研究背景與動機...1
	1.2 研究目的...2
	1.3論文架構...3
 第二章 文獻探討...5
	2.1	意見分析...5
	2.2	意見字典...6
		2.2.1 NTUSD (National Taiwan University Sentiment Dictionary)...7
		2.2.2 知網-HowNet 意見字典...8
	2.3	意見詞抽取與擴增...9
		2.3.1 基於字典...9
		2.3.2 基於語料庫...10
	2.4	意見極性判斷...12
		2.4.1 基於字典...12
		2.4.2 基於語料庫...13
	2.5	意見詞彙的擴增與意見分析準確度...15
	2.6	分群技術...16
 第三章 研究方法...18
 第四章 雛形系統建置...20
	4.1 自動化擷取目標網站評論...21
	4.2 資料預處理...22
	4.3 領域代表性...24
	4.4 意見詞彙抽取...27
	4.5 意見詞彙相似度分群...29
	4.6 無效意見辭彙過濾...32
	4.7 意見詞情感傾向...33
		4.7.1 正負向種子詞彙選取...33
		4.7.2  SO-PMI...34
	4.8 雛型系統成果與小結...36
 第五章 實驗與討論...40
	5.1 字典涵蓋率驗證...40
		5.1.1 實驗資料集...40
		5.1.2 實驗步驟與評估標準...41
		5.1.3 評分一致性...43
		5.1.4 涵蓋率評估結果與討論...46
	5.2 基於意見字典之情感分類實驗...48
		5.2.1 實驗流程...48
		5.2.2 特徵值建立與選取...50
		5.2.3 實驗結果與討論...52
 第六章 結論及未來發展...55
	6.1	結論...55
	6.2	研究限制...56
	6.3	未來展望...56
 參考文獻...58

===============================

表目錄

表 2-1:意見分析的研究層級...5
表 2-2:NTUSD所收納的字典與詞彙數量列表...7
表 2-3:NTUSD所收納之詞彙範例...8
表 2-4:知網情感分析用語詞集詞彙數量與範例...8
表 2-5:本研究所採用的一般通用意見字典...9
表 2-6:Turney-五大英文意見詞性組合...10
表 2-7:意見辭彙詞性組合...11
表 2-8:包含意見詞之句法結構...12
表 2-9:編輯距離演算法整理...17
表 4-1:本研究所用之評論文章與產品店家數量表...21
表 4-2:Jieba詞性表...22
表 4-3:Jieba斷詞與詞性標註結果...24
表 4-4:領域代表詞彙計算結果...26
表 4-5:詞性組合對應示意...27
表 4-6:抽取成語意見詞彙之規則...28
表 4-7:形容詞詞性組合...28
表 4-8:Levenshtein Distance結合Single-Pass分群之結果示意(部分)...31
表 4-9:意見詞彙相似度分群時間效益測試...31
表 4-10:美食與美妝領域的前五大代表詞彙...32
表 4-11:美食與美妝領域正負向情感種子...34
表 4-12:本研究所擴增之領域意見詞彙數量...36
表 4-13:一般通用意見字典(NTUSD、HowNet)+擴增後之領域意見詞彙數量...37
表 4-14:本研究所產生的領域意見詞彙...37
表 4-15:本研究所產生的領域意見詞彙字數分佈統計...37
表 4-16 透過成語詞性組合找出的領域意見詞彙數量...38
表 4-17:透過成語詞性組合找出的領域意見詞彙...38
表 4-18:與通用字典詞彙極性相反之案例...38
表 5-1:詞彙涵蓋率相關文獻...42
表 5-2:相關係數的值與關係程度...44
表 5-3:驗證結果示意...45
表 5-4:Pearson係數一致性結果...45
表 5-5:涵蓋率結果與領域、文章類型分類比較...46
表 5-6:評分定義...49
表 5-7:特徵值列表...50
表 5-8:特徵集合列表...51
表 5-9:十次交叉驗證特徵值檢定結果...51
表 5-10:混淆矩陣...52
表 5-11:情感分類準確率結果...53
表 5-12:情感分類準確率結果...54

===============================

圖目錄

圖 1-1:研究流程圖	...4
圖 3-1:系統發展研究流程...18
圖 4-1:系統架構與步驟...20
圖 5-1:實驗流程圖...49
參考文獻
一、中文文獻
[1]	白明弘、吳鑑城、簡盈妮等,〈基於詞語分佈均勻度的核心詞彙選擇〉。中文計算語言學期刊,第21卷第2期,頁1-17,2016年12月。
[2]	劉建偉、胡衛平,〈中學生物理問題解決能力的發展研究〉,內蒙古師範大學學報 (教育科學版),第8卷,頁127-130,2007年8月。
[3]	朱嫣嵐、閔錦、周雅倩等,〈基於Hownet的詞彙語義傾向計算〉,中文資訊學報,第20卷,第1期,頁16-22,2006年7月。
[4]	呂珮瑜,《中文情緒詞庫的建造與標記》,碩士論文,臺灣大學語言研究所,2015。
[5]	李政儒、游基鑫、陳信希,〈廣義知網詞彙意見極性的預測〉,中文計算語言學期刊,第17卷,第4期,頁33-47,2012年6月。
[6]	杜冬,《基於改進的so-pmi演算法詞語傾向性分析研究》,碩士論文,重慶郵電大學, 2013。
[7]	邱鴻達,《意見探勘在中文電影評論之應用》,碩士論文,交通大學資訊工程研究所,2011。
[8]	柯智虔,《犬關節膝蓋骨脫臼防止植體與其手術工具之設計製造及分析》,碩士論文,中興大學機械工程學系所,2008。
[9]	洪鵬翔,《中文新聞自動群聚》,碩士論文,清華大學資訊工程學系,2000。
[10]	趙浩、孔立、李運倫,〈高血壓肝火上炎證診斷量表的信度及效度的檢驗〉,環球中醫藥,第7卷,第9期,頁678-681,2014年9月。
[11]	張莉萍,〈對應於歐洲共同架構的華語詞彙量〉,華語文教學研究,第9卷,第2期,頁77-96,2012年6月。
[12]	陳柏翰,《基於中文語法規則的意見單元抽取方法之研究》,碩士論文,淡江大學資訊管理學系,2013。
[13]	陳嘉玫、楊佳蕙、賴穀鑫,〈基於結構相似度之惡意程式原始碼分類研究〉,電子商務學報,第15卷,第4期,頁519-539,2013年12月。
[14]	陳聰宜,《新聞事件偵測與追蹤結合時間區間之分群分類演算法評比》,碩士論文,雲林科技大學資訊管理學系,2012。
[15]	曾五一、黃炳藝,〈調查問卷的可信度和有效度分析〉,2005年統計與資訊理論壇,頁11-15,2005。
[16]	游和正、黃挺豪、陳信希,〈領域相關詞彙極性分析及檔情緒分類之研究〉,中文計算語言學期刊,第17卷,第4期,頁33-47,2012年12月。
[17]	黃純敏、陳聰宜、詹雅築,〈新聞事件偵測與追蹤之分群分類演算法研究〉,資訊科技國際期刊,第8卷,第1期,頁70-18,2014年6月。
[18]	黃群弼,《中文繁簡等義詞自動辨識之研究》,碩士論文,政治大學資訊科學系,2008。
[19]	〈結巴中文斷詞〉,網址:https://speakerdeck.com/fukuball/jieba-jie-ba-zhong-wen-duan-ci,上網日期:2017年1月20日。
[20]	楊盛帆,《以整合式規則來做網路論壇上的3c產品口碑分析》,碩士論文,元智大學資訊管理學系,2009。
[21]	楊懿麗,〈國內各級英語教學的詞彙量問題〉,國立編譯館館刊,第34卷,第3期,頁35-44,2006年9月。
[22]	董振東、董強、郝長伶,〈知網的理論發現〉,中文資訊學報,第21卷,第4期,頁3-9,2007年7月。
[23]	謝靜婷,《半自動建立中文 WordNet 之研究》,碩士論文,清華大學資訊工程學系,2008。
[24]	簡之文,《部落格文章情感分析之研究》,碩士論文,淡江大學資訊管理學系,2012。

二、英文文獻
[25]	Bergroth, L., Hakonen, H., and Raita, T., “A survey of longest common subsequence algorithms,” String Processing and Information Retrieval, Seventh International Symposium, Curuna, pp. 39-48, 2000.
[26]	Brill, E, “Some advances in transformation-based part of speech tagging,” Proceedings of the twelfth national conference on Artificial intelligence (vol. 1) (AAAI '94). American Association for Artificial Intelligence, Menlo Park, CA, USA, pp. 722-727, 1994.
[27]	C. C. Chang and C. J. Lin, LIBSVM : a library for support vector machines,  Software available at http://www.csie.ntu.edu.tw/~cjlin/libsvm, accessed 2017/01/02
[28]	Church, K. W., and Hanks, P., “Word association norms, mutual information and lexicography,” Computational linguistics, vol. 16, no. 1, pp. 22-29, March, 1990.
[29]	Damerau, F. J., “A technique for computer detection and correction of spelling errors,” Communications of the ACM, vol. 7, no. 3, pp. 171-176, March, 1964.
[30]	de Marneffe, M. C., Manning, C. D., and Potts, C., “Was it good? it was provocative. learning the meaning of scalar adjectives,” Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics, Uppsala, Sweden, pp. 167-176, July, 2010. 
[31]	Ding, X., Liu, B., and Yu, P. S., “A holistic lexicon-based approach to opinion mining,” Proceedings of the 2008 international conference on web search and data mining, Palo Alto, California, USA, pp. 231-240, July, 2008. 
[32]	Dos Santos, C. N., and Gatti, M., “Deep Convolutional Neural Networks for Sentiment Analysis of Short Texts”, COLING, pp. 69-78, 2014.
[33]	Haldar, R., and Mukhopadhyay, D., Levenshtein distance technique in dictionary lookup methods, Master’s thesis , Cornell University, 2011.
[34]	Hall, M., Frank, E., Holmes, G., and Pfahringer, B.et al. “The WEKA data mining software: an update,” ACM SIGKDD explorations newsletter, vol. 11, no. 1, pp. 10-18, June, 2009.
[35]	Hamming, R. W. , “Error detecting and error correcting codes,” Bell Labs Technical Journal, vol. 29, no. 2, pp. 147-160, April, 1950.
[36]	Hatzivassiloglou, V., and McKeown, K. R., “Predicting the semantic orientation of adjectives,” Proceedings of the eighth conference on European chapter of the Association for Computational Linguistics, Madrid, Spain, pp. 174-181, July, 1997. 
[37]	Hu, M., and Liu, B. , “Mining and summarizing customer reviews,” Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining , Seattle, WA, USA, pp. 168-177, August, 2004. 
[38]	Kamps, J., Marx, M., and Mokken, R. J. et al., “Using WordNet to Measure Semantic Orientations of Adjectives,” LREC , vol. 4, pp. 1115-1118, January, 2004. 
[39]	Kim, S. M., and Hovy, E. , “Determining the sentiment of opinions,” Proceedings of the 20th international conference on Computational Linguistics , Geneva, Switzerland, pp. 1367, August, 2004. 
[40]	Kobayashi, N., Inui, K., and Matsumoto, Y., “Opinion mining from web documents: Extraction and structurization,” Information and Media Technologies, vol. 2, no. 1, pp. 326-337, March, 2007. 
[41]	Ku, L. W., and Chen, H. H., “Mining opinions from the Web: Beyond relevance retrieval,” Journal of the American Society for Information Science and Technology, vol. 58, no. 12, pp. 1838-1850, August, 2007.
[42]	Levenshtein, V. I., “Binary codes capable of correcting deletions, insertions, and reversals,” Soviet physics doklady, vol. 10, No. 8, pp. 707-710, February, 1966.
[43]	Liu, B. , “Sentiment analysis and subjectivity,” Handbook of Natural Language Processing, Second Edition , pp. 627-666, Chapman and Hall/CRC, 2010. 
[44]	Liu, B., “Sentiment analysis and opinion mining,” Synthesis lectures on human language technologies, vol. 5, no. 1, pp. 1-167, May, 2012. 
[45]	Myers, R., Wison, R. C., and Hancock, E. R. , “Bayesian graph edit distance,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 22, no. 6, pp. 628-635, June, 2000.
[46]	Nunamaker Jr, J. F., Chen, M., and Purdin, T. D., “Systems development in information systems research,” Journal of management information systems, vol. 7, no. 3, pp. 89-106, 1990. 
[47]	Pang, B., Lee, L., and Vaithyanathan, S., “Thumbs up?: sentiment classification using machine learning techniques,”, Proceedings of the ACL-02 conference on Empirical methods in natural language processing-Volume 10 , PA, USA, pp. 79-86, 2002.
[48]	Park, S., and Kim, Y., “Building thesaurus lexicon using dictionary-based approach for sentiment classification,”, Software Engineering Research, Management and Applications (SERA), 2016 IEEE 14th International Conference , Towson, MD, USA, pp. 39-44, June, 2016. 
[49]	Peng, W., and Park, D. H., “Generate adjective sentiment dictionary for social media sentiment analysis using constrained nonnegative matrix factorization,”, Fifth International AAAI Conference on Weblogs and Social Media, Barcelona, Catalonia, Spain , July, 2011.
[50]	Rane, S., and Sun, W., “Privacy preserving string comparisons based on Levenshtein distance,” Information Forensics and Security (WIFS), 2010 IEEE International Workshop, Seattle, WA, USA, pp. 1-6, December, 2010.
[51]	Rao, D., and Ravichandran, D., “Semi-supervised polarity lexicon induction,” Proceedings of the 12th Conference of the European Chapter of the Association for Computational Linguistics , Stroudsburg, PA, USA, pp. 675-682, March, 2009. 
[52]	Salton, G., and Buckley, C., “Term-weighting approaches in automatic text retrieval,” Information processing and management, vol.24, no. 5, pp. 513-523, 1998.
[53]	Shelke, N. M., Deshpande, S., and Thakre, V. , “Survey of techniques for opinion mining,” International Journal of Computer Applications, vol. 57, no. 13, November, 2012.
[54]	Tang, D., Wei, F., Qin, B., Zhou, M., and Liu, T. , “Building Large-Scale Twitter-Specific Sentiment Lexicon: A Representation Learning Approach,” COLING , pp. 172-182, 2014.
[55]	Turney, P. D., “Thumbs up or thumbs down?: semantic orientation applied to unsupervised classification of reviews,” Proceedings of the 40th annual meeting on association for computational linguistics , pp. 417-424, July, 2002.
[56]	Turney, P. D., and Littman, M. L. , “Measuring praise and criticism: Inference of semantic orientation from association,” ACM Transactions on Information Systems (TOIS), vol. 21, no. 4, pp. 315-346, September, 2003. 
[57]	Wiebe, J. M., Bruce, R. F., and O'Hara, T. P., “Development and use of a gold-standard data set for subjectivity classifications,”, Proceedings of the 37th annual meeting of the Association for Computational Linguistics on Computational Linguistics , Stroudsburg, PA, USA, pp. 246-253, June, 1999.
[58]	Wilson, T., Wiebe, J., and Hwa, R., “Just how mad are you? Finding strong and weak opinion clauses,” aaai ,vol. 4, pp. 761-769, July, 2004.
[59]	Winkler, W. E., “String Comparator Metrics and Enhanced Decision Rules in the Fellegi-Sunter Model of Record Linkage,” Proceedings of the Section on Survey Research, pp.354-359, 1990.
[60]	Witten, I. H., Frank, E., and Hall, M. A. et al., Data Mining: Practical machine learning tools and techniques, Morgan Kaufmann, 2016.
[61]	Wu, H. H., Tsai, A. C. R., and Tsai, R. T. H. et al., “Building a Graded Chinese Sentiment Dictionary Based on Commonsense Knowledge for Sentiment Analysis of Song Lyrics,” J. Inf. Sci. Eng., vol. 29, no. 4, pp. 647-662 , July, 2013.
[62]	Zhuang, L., Jing, F., and Zhu, X. Y. , “Movie review mining and summarization,” Proceedings of the 15th ACM international conference on Information and knowledge management , New York, NY, USA, pp. 43-50, November, 2006.
論文全文使用權限
校內
紙本論文於授權書繳交後5年公開
同意電子論文全文授權校園內公開
校內電子論文於授權書繳交後5年公開
校外
同意授權
校外電子論文於授權書繳交後5年公開

如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信