§ 瀏覽學位論文書目資料
  
系統識別號 U0002-1102202020454700
DOI 10.6846/TKU.2020.00261
論文名稱(中文) 基於情緒分析之評論等級預測
論文名稱(英文) THE COMMENT LEVEL PREDICTION BASED ON SENTIMENT ANALYSIS
第三語言論文名稱
校院名稱 淡江大學
系所名稱(中文) 資訊管理學系碩士班
系所名稱(英文) Department of Information Management
外國學位學校名稱
外國學位學院名稱
外國學位研究所名稱
學年度 108
學期 1
出版年 109
研究生(中文) 尹盈中
研究生(英文) Ying-Chung Yin
學號 606630381
學位類別 碩士
語言別 繁體中文
第二語言別
口試日期 2019-12-26
論文頁數 33頁
口試委員 指導教授 - 梁恩輝
委員 - 梁恩輝
委員 - 謝禎冏
委員 - 張昭憲
關鍵字(中) 爬蟲程式
情緒分析
基因演算法
關鍵字(英) Crawler
Sentiment analysis
Genetic Algorithm
第三語言關鍵字
學科別分類
中文摘要
現今消費者愈來愈傾向在網路上進行購物及對所消費之店家進行評論,透過情緒分析,消費者的意見可以被截取出來,而這些評論會影響其他想要消費的消費者之意願。對於服務或商品的評論,有些是文字評論,有些是給予星號等級,有些是二者皆有。
雖然文字評論能給予較詳細的說明,但是面對大量的評論,消費者無法每一則評論都瀏覽過,所以星號等級就成了消費者快速的辨別商品的好壞一個重要參考。一些研究已提出了根據文字評論來計算星號等級的方法,然而在一些同時有提供文字評論及星號等級的網站中,這種計算出的星號等級與消費者原來提供的有著相當的差異。因此如何讓評論中的情緒傾向正確的分類到所對應的星號等級是很重要的。本論文提出兩種方法,一是透過情緒分析及基因演算法提出一個星等評分的分法,根據中文的餐廳文字評論,計算出一個與消費者所給的較接近的星號等級,另一個則是對某一特定消費者的某一特定評論,我們要判斷這篇評論的星等評論是高於還是低於她(或他)過去所評論過的星號等級之平均。如果高於其平均星號等級,則給予一個正號,反之,則給一個負號,並利用正負標記對餐廳進行評價,提供消費者另一個新的參考指標。
英文摘要
Today's consumers are increasingly inclined to shop on the Internet and comment on the merchandise.  Through sentiment analysis, the opinion of the consumer can be abstracted and these comments will affect the willingness of other consumers to buy the same thing. The consumer provides the comments on services or merchandises by giving text, star ratings, or both.
Although text comments can give more detailed explanations, consumers can not browse every comment since sometimes there are a huge amount of comments.  Hence, the star rating has become an important reference for consumers to quickly identify the quality of products. Some studies have proposed methods for calculating star ratings based on text reviews. However, in some websites that provide both text reviews and star ratings, this calculated star rating is different from what consumers originally provided. Therefore, it is important to correctly classify the emotional tendencies in the comments to the corresponding asterisk level. In this paper we propose two methods. The first is to propose a method for calculating star rating based on sentiment analysis and genetic algorithms. According to Chinese restaurant reviews, calculate a star rating closer to that given by consumers. The other is for a particular comment of a particular consumer, we find whether the consumer's star rating is higher or lower than the average of all her (or his) past star ratings. A positive token is given is this star rating is higher than the average. On the other hand, a negative token is given if it is lower than the average. And use positive and negative tokens to evaluate the restaurant. Finally, we provide consumers with another new reference indicator.
第三語言摘要
論文目次
目錄
第一章 緒論 1
1.1 研究動機與背景 1
1.2 研究目的 2
1.3 論文架構 2
第二章 相關研究 3
2.1 Tripadvisor 3
2.2 情緒分析(Sentiment Analysis) 3
2.3 情緒字典 4
2.3.1 台灣大學情緒辭典(National Taiwan University Sentiment Dictionary) 5
2.3.2 HowNet情緒字典 5
2.3.3 SentiWordNet  6
2.4 Jieba斷詞 6
2.5基因演算法(Genetic Algorithm) 7
第三章 研究方法 9
3.1 研究流程 9
3.2 爬蟲 10
3.2.1 Tripadvisor 餐廳評論 10
3.2.2 評論者歷史星等 11
3.3 資料前處理 11
3.4 Jieba斷詞與詞性標記 12
3.5 情緒詞判斷 12
3.6 評論分數計算 13
3.7 基因演算法找出最佳切割區間 14
3.7.1 演算法步驟及染色體 15
3.7.2 計算適應值 16
3.7.3 產生子代染色體 17
3.8 評論正負計算 17
3.9 分數正規化 20
第四章 實驗結果 21
4.1 資料處理 21
4.2 最佳區間訓練結果 24
4.3 評論星等標記結果 26
第五章 結論與建議 30
5.1 資料處理 30
5.2未來研究方向 30
參考文獻 32

圖目錄
圖一、基因演算法流程圖 7
圖二、最佳區間尋找流程圖 9
圖三、餐廳指標計算流程圖 9
圖四、tripadvisor餐廳評論類型 10
圖五、tripadvisor餐廳評論之爬蟲結果範例 10
圖六、評論者歷史星等統計範例 11
圖七、英文評論及表情符號範例 11
圖八、固定區間範例 14
圖九、本研究染色體範例 15
圖十、評分習慣範例一 18
圖十一、評分習慣範例二 19
圖十二、各星號等級評論筆數 21
圖十三、斷詞結果範例 22
圖十四、100迭代結果 24
圖十五、150迭代結果 25
圖十六、標記後範例 27

表目錄
表一、NTUSD擴充後詞之詞典 12
表二、評論出現之情緒詞個數 22
表三、正規化前分數範例 23
表四、正規化後分數範例 23
表五、評論情緒分數範例 23
表六、訓練資料星號等級總誤差值 25
表七、測試資料星號等級總誤差值 26
表八、篇數及正負統計 27
表九、正規化後指標 28
表十、200筆總評論分數比較 29
表十一、100筆總評論分數比較 29
參考文獻
[1] NLPLAB-NTUSD,網址:http://academiasinicanlplab.github.io/ 
[2] Hownet 知網,網址:http://www.keenage.com/html/c_index.html 
[3] Jieba,網址:https://github.com/fxsjy/jieba 
[4] Hu, Minqing, and Bing Liu. "Mining and summarizing customer reviews." Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2004.
[5] Ku, L.-W. and Chen, H.-H. (2007). Mining opinions from the web: beyond relevance retrieval. Journal of American Society for Information Science and Technology, 58(12), 1838-850
[6] Pang, Bo, and Lillian Lee. "Opinion mining and sentiment analysis." Foundations and Trends® in Information Retrieval2.1–2 (2008): 1-135.
[7] Ding, X., Liu, B., and Yu, P. S. 2008. "A Holistic Lexicon-Based Approach to Opinion Mining," Proceedings of the 2008 international conference on web search and data mining: ACM, pp. 231-240.
[8] Sun, Y.-T., Chen, C.-L., Liu, C.-C., Liu, C.-L., and Soo, V.-W. 2010. "中文短句之情緒分類 (Sentiment Classification of Short Chinese Sentences)[in Chinese]," Proceedings of the 22nd Conference on Computational Linguistics and Speech Processing (ROCLING 2010), pp. 184-198.
[9] Tuominen, P. 2011. "The Influence of Tripadvisor Consumer-Generated Travel Reviews on Hotel Performance.".
[10] García, A., Gaines, S., and Linaza, M. T. 2012. "A Lexicon Based Sentiment Analysis Retrieval System for Tourism Domain," Expert Syst Appl Int J (39:10), pp. 9166-9180.
[11] Govindarajan, M. 2013. "Sentiment Analysis of Movie Reviews Using Hybrid Method of Naive Bayes and Genetic Algorithm," International Journal of Advanced Computer Research (3:4), p. 139.
[12] Fang, Xing, and Justin Zhan. "Sentiment analysis using product review data." Journal of Big Data 2.1 (2015): 5.
[13] Singhal, K., Agrawal, B., and Mittal, N. 2015. "Modeling Indian General Elections: Sentiment Analysis of Political Twitter Data," in Information Systems Design and Intelligent Applications. Springer, pp. 469-477.
[14] Valdivia, Ana, M. Victoria Luzón, and Francisco Herrera. "Sentiment Analysis on TripAdvisor: Are There Inconsistencies in User Reviews?." International Conference on Hybrid Artificial Intelligence Systems. Springer, Cham, 2017.
[15] Keshavarz, H., and Abadeh, M. S. 2017. "Alga: Adaptive Lexicon Learning Using Genetic Algorithm for Sentiment Analysis of Microblogs," Knowledge-Based Systems (122), pp. 1-16.
[16] Yao, Jiani, Hongwei Wang, and Pei Yin. "Sentiment feature identification from Chinese online reviews." Advances in Information Technology and Education. Springer, Berlin, Heidelberg, 2011. 315-322.
[17] Liu, Bing. "Sentiment analysis and opinion mining." Synthesis lectures on human language technologies 5.1 (2012): 1-167.
[18] Zhou, Hongfang, et al. "Feature Selection Based on Term Frequency Reordering of Document Level." IEEE Access 6 (2018): 51655-51668.
[19] Sohangir, S., Wang, D., Pomeranets, A., and Khoshgoftaar, T. M. 2018. "Big Data: Deep Learning for Financial Sentiment Analysis," Journal of Big Data (5:1), p. 3.
[20] 林柏勳, 胡光復, 沈哲緯, 辜炳寰, and 鄭錦桐. "最佳化方法於工程上之應用" 中興工程季刊 103 (2009): 13-24。 
[21] 游和正, 黃挺豪, and 陳信希. "領域相關詞彙極性分析及文件情緒分類之研究." 中文計算語言學期刊 17.4 (2012): 33-47.
[22] 謝維宸, and 李官陵. "短文評論知情緒分析研究." NCS 2017 全國計算機會議. 國立東華大學, 2018.
[23] 楊亨利, and 林青峰. "微網誌短句的情感指數分析-以新浪微博為例." 資訊管理學報 24.1 (2017): 1-28.
[24] 劉夢曉. "負面在線評論和商家反饋對消費者購買意願的影響研究." 電子商務學報 19.1 (2017): 83-116.
[25] 游綉雯. 2015. "使用情緒分析於社群論壇消費者評論滿意度評估之研究—以 Tripadvisor 旅遊網站為例.".國立中興大學圖書資訊學研究所碩士論文(2015)
論文全文使用權限
校內
校內紙本論文立即公開
同意電子論文全文授權校園內公開
校內電子論文立即公開
校外
同意授權
校外電子論文立即公開

如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信