§ 瀏覽學位論文書目資料
系統識別號 U0002-0102202121092100
DOI 10.6846/TKU.2021.00004
論文名稱(中文) 一個由產品評論擷取特徵詞的方法
論文名稱(英文) A method of the extraction of feature words from product reviews
第三語言論文名稱
校院名稱 淡江大學
系所名稱(中文) 資訊管理學系碩士班
系所名稱(英文) Department of Information Management
外國學位學校名稱
外國學位學院名稱
外國學位研究所名稱
學年度 109
學期 1
出版年 110
研究生(中文) 黃堉真
研究生(英文) Yu-Zhen Huang
學號 606630308
學位類別 碩士
語言別 繁體中文
第二語言別
口試日期 2020-12-24
論文頁數 146頁
口試委員 指導教授 - 梁恩輝
委員 - 謝禎囧
委員 - 梁恩輝
委員 - 張應華
關鍵字(中) 情緒分析
特徵詞擷取
word2vec
關鍵字(英) Sentiment analysis
Feature extraction
Word2vec
第三語言關鍵字
學科別分類
中文摘要
近來情緒分析快速的被應用在許多的領域中,而特徵詞的擷取及根據特徵詞的情緒分析成為一個重要的課題。本論文提出一個有效率的擷取一組特徵詞的方法,並驗證此組特徵詞有良好的情緒分析結果。本論文以agoda訂房網站上的評論為例,先將這些評論斷詞,再根據斷詞後詞性為名詞的詞彙建立word2vec模型。
    開始的時候,每一個名詞都可能是最後擷取出來的特徵詞組中之一。我們提出一個對這些名詞進行反覆的篩選的方法,最後獲得一組最佳的特徵詞組。如果一個名詞是一個較佳的特徵詞,那這個名詞必定會和其他較佳的特徵詞有較強的相關性,反之,如果一個名詞不是特徵詞,則和其他的特徵詞相關性必定較弱,甚至沒有相關性。我們的方法是利用word2vec模型對每一個詞彙找出其相關詞彙,如果一個詞彙是特徵詞,那麼它的相關詞彙中會有較多的其它特徵詞。我們利用這個特性,提出一個根據這這些相關詞彙,來淘汰較不可能是特徵詞的方法,我們反覆進行這個篩選的步驟,最終獲取一組特徵詞。
    最後利用LIBSVM及XGBOOST進行情緒分析的分類,實驗結果顯示我們提出的方法,分類正確率跟其他方法差不多或稍高。本論文方法的特點在於不需要先知道評論的類別(正面或負面),以及執行效率較佳。預期本論文未來可以應用在各個產品領域當中,以便快速獲取大量評論中的特徵詞。
英文摘要
Recently, sentiment analysis has been quickly applied in many fields, and the extraction of feature words and sentiment analysis based on feature words have become an important topic. This paper proposes an efficient method to extract a group of feature words, and verifies that this group of feature words has a good sentiment analysis result. This paper takes the comments on the agoda booking website as an example. First, these comments are segmented, and then the word2vec model is established based on the vocabulary whose tag is the noun after the segmentation.
    At the beginning, each noun may be one of the feature word extracted last. We propose a method to repeatedly filter these nouns, and finally obtain a set of best feature words. If a noun is a better feature word, then the noun must have a strong correlation with other better feature words. Conversely, if a noun is not a feature word, it must have a weaker correlation with other feature words, not even relevant. Our method is to use the word2vec model to find the related vocabulary for each vocabulary. If a vocabulary is a feature word, then there will be more other feature words in its related vocabulary. We use this feature to propose a method to eliminate the less likely feature words based on these related vocabulary. We repeat this screening step and finally obtain a set of feature words.
    Finally, LIBSVM and XGBOOST are used to classify product reviews based on the feature words. The experimental results show that the classification accuracy of our proposed method is similar to or slightly higher than other methods. The advantage of the method in this paper is that it does not need to know the category (positive or negative) of the review first, and the execution efficiency is better. It is expected that this paper can be used in various product fields in the future, so as to quickly obtain feature words in a large amount of reviews.
第三語言摘要
論文目次
中文摘要 I
英文摘要 II
目錄	IV
表目錄	V
圖目錄	VI
第一章 緒論	1
一、	研究動機與背景	1
二、	研究目的	2
三、	論文架構	2
第二章 相關研究	3
一、	特徵詞定義及相關應用	3
二、	特徵詞擷取方法	3
三、	相關特徵詞擷取方法	7
四、	資料分類方法	10
第三章	一個利用反覆篩選機制擷取特徵詞的方法	12
一、	特徵詞擷取的事前準備步驟	12
(一)	擷取文本資料	14
(二)	斷詞	15
(三)	建立候選特徵詞及其詞頻	15
(四)	建立模型	16
(五)	計算候選特徵詞形容詞比率	16
二、	特徵詞擷取演算法	17
(一)	Step1:將候選特徵詞一一輸入模型	18
(二)	Step2:計算顯著值	18
(三)	Step 3:取顯著值前n個作為新候選特徵詞組	19
(四)	Step 4:以新候選特徵詞組重複執行Step2及Step3	19
三、	特徵詞擷取演算法說明	19
四、	特徵詞擷取演算法舉例說明	20
第四章	實驗結果與比較	22
一、	特徵詞擷取結果與agoda訂房網項目比較	22
二、	LIBSVM 及XGBOOST分類比較結果	23
三、	實驗結果比較討論	25
第五章	結論	26
一、	結語	26
二、	未來展望	26
參考文獻	27
附錄	30

 
表目錄

表 1 詞性序列模板	5
表 2 各特徵詞不同類別中文檔頻率的一些相對定義	7
表 3 四種特徵方法介紹	9
表 4飯店評論內容及評論分數	14
表 5各候選特徵詞及其在文本總檔中次數	15
表 6候選特徵詞「性價比」與其最相關的10個詞彙	18
表 7候選特徵詞顯著值計算範例	19
表 8 相關詞彙檔中候選特徵詞及其相關詞彙	21
表 9 agoda訂房網站上評分項目與本論文擷取特徵詞比較	22
表 10 相關詞彙檔	30
 
圖目錄

圖 1 事前準備流程圖	13
圖 2 文本總檔	14
圖 3文本總檔斷詞並標記詞性	15
圖 4模型視覺化	16
圖 5演算法流程圖	17
圖 6 agoda訂房網站評分項目	23
圖 7 LIBSVM分類正確率比較	24
圖 8 LIBSVM分類正確率比較	24
參考文獻
[1]	安可達訂房網站評論
“https://www.agoda.com/zh-tw/jingan-classic-inn/reviews/”
[2]	邱鴻達,2010,意見探勘在中文電影評論之應用,國立交通大學資訊科學與工程研究所碩士學位論文。
[3]	侯銀秀、李偉卿、王偉軍、張婷婷,2017,『基於用戶偏好與商品屬性情感匹配的圖書個性化推薦研究』,數據分析與知識發現,第八期:9~17頁。
[4]	胡夢珂,民100,使用支援向量機進行中文文本可讀性分類-以國小國語課文為例,國立師範大學資訊教育研究所碩士論文。
[5]	胡燕、吳虎子、鍾珞,2007,『中文文本分類中基於詞性的特徵提取方法研究』,武漢理工大學學報,第二十九卷,第四期: 132~135頁。
[6]	栗春亮、朱艷輝、徐葉強,2011,『中文產品評論中屬性詞抽取方法研究』,第六屆全國信息檢索學術會議,第六屆全國信息檢索學術會議論文集,第三十七卷,第十二期:644~651頁。
[7]	張莊平,民101,中文文法剖析應用於電影評論之意見情感分類,國立師範大學資訊工程研究所碩士論文。
[8]	黃堉真、梁恩輝,2020,『一個由評論擷取特徵詞的方法』,第31屆國際資訊管理學術研討會:181頁。
[9]	楊瑞敏、李嘉晃,2009,基多文件摘要系統基於Mutual Reinforcement原理,國立交通大學多媒體工程研究所碩士學位論文。
[10]	趙妤瑄、王豐緒,2017,『情緒詞權重計算與分類演算法對於情緒分析結果之影響--以臉書粉絲團議題分析為例』,電子商務研究,第十五卷,第二期:147~166頁。
[11]	趙軍、許洪波、黃萱菁、譚松波、劉康、張奇,2008,『中文傾向性分析評測技術報告 』,第七屆中文信息處理國際會議。
[12]	劉夢曉,2017,『負面在線評論和商家反饋對消費者購買意願的影響研究』,電子商務學報,第十九卷,第一期:83~116頁。
[13]	Chen, H., Schuffels, C., and Orwig, R., 1996, "Internet categorization and search: A self-organizing approach, " Visual Communication And Image Representation(7:1), pp 88-102.
[14]	Forman, G. 2003,"An extensive empirical study of feature selection metrics for text classification, " The Journal of Machine Learning Research(vol. 3), pp 1289–1305. 
[15]	Hu, M.Q., and Liu, B. 2004, "Mining and summarizing customer reviews, " KDD (04), pp 168−177. 
[16]	Jin, C, Ma, T, Hou, R, and Tang, M. 2015, "Chi-square statistics feature selection based on term frequency and distribution for text categorization, " IETE J. Res(61: 4), pp 351–362. 
[17]	LIBSVM -- A Library for Support Vector Machines
"https://www.csie.ntu.edu.tw/~cjlin/libsvm/"
[18]	Liu, B., Hsu, W.,and Ma, Y. 1998, "Integrating Classification and Association Rule Mining, " KDD(98), pp 80-86
[19]	Liu, B., Hu, M., and Cheng, J. 2005, " Opinion Observer: Analyzing and Comparing Opinions on the Web," WWW (05), pp 342–351.
[20]	Rehman, A., Javed, K., and Babri, H.A. 2017, "Feature selection based on a normalized difference measure for text classification, " Inf. Process. Manage(53:2), pp 473–489.
[21]	Sabbah, T., Selamat, A., Selamat, M.H., Al-Anzi, F.S., Viedma, E.H., Krejcar, O., Fujita, H. 2017, "Modified frequency-based term weighting schemes for text classification, " Applied Soft Computing (Volume:58), pp 193-206.
[22]	Singh, S., Murthy, H., and Gonsalves, T. 2010, "Feature selection for text classification based on gini coefficient of inequality, " JLMR (10), pp 76–85.
[23]	Zhou, H., Guo, J., Wang, Y., and Zhao, M. 2016, "A feature selection approach based on interclass and intraclass relative contributions of terms, " Comput. Intell. Neurosci (17), pp 1-8.
[24]	Zhou, H., Zhang, Y., Liu, H., and Zhang, Y. 2018. "Feature Selection Based on Term Frequency Reordering of Document Level," IEEE Access ( Volume:6 ), pp 51655-51668.
論文全文使用權限
校內
校內紙本論文立即公開
校內書目立即公開
校外
不同意授權

如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信