淡江大學覺生紀念圖書館 (TKU Library)
進階搜尋


下載電子全文限經由淡江IP使用) 
系統識別號 U0002-1408201914462500
中文論文名稱 以文字探勘技術建立憂鬱情感預測風險模型
英文論文名稱 Develop a Risk Prediction Model for Depression Based on Text/Documents Mining Techniques
校院名稱 淡江大學
系所名稱(中) 數學學系數學與數據科學碩士班
系所名稱(英) Master's Program, Department of Mathematics
學年度 107
學期 2
出版年 108
研究生中文姓名 葉俊怡
研究生英文姓名 Chun-Yi Yeh
電子信箱 v777007@gmail.com
學號 606190097
學位類別 碩士
語文別 中文
口試日期 2019-07-04
論文頁數 82頁
口試委員 指導教授-王彥雯
委員-黃逸輝
委員-李美賢
中文關鍵字 憂鬱症  文字探勘  情感分析  情感變化 
英文關鍵字 Depression  Text mining  Sentiment analysis  Mood change  Time series 
學科別分類
中文摘要 世界衛生組織(World Health Organization, WHO)憂鬱症調查的報告指出,全球前三大疾病中憂鬱症排名為第二,只低於心血管疾病,而憂鬱症人口約佔全世界總人口3%,相當於2億多人,除了人數年年升高之外,憂鬱症患者也有年輕化的趨勢。由此可知,憂鬱症儼然成為現今社會當中的健康殺手,憂鬱症不但影響生活品質、提高醫療及社會的負擔外,嚴重時患者還可能終結自己生命,造成大家不願意見到的遺憾。
本研究利用文字探勘與情感分析的方法提出一憂鬱症風險預測模型。我們先利用文字探勘的技術將非結構化的文字資料轉為結構化的數值資料,接著運用情感分析的方法給定詞彙情感分數,並建立整份文件的情感分數模型,最後再將文本情感分數轉為憂鬱指數用以建立憂鬱風險預測模型。在本研究中以南韓藝人金鐘鉉其生平創作的87首歌詞作品為例,金鐘鉉因憂鬱症纏身,於西元2017年12月18日燒炭自殺,結束自己短暫的27年生命,我們利用所提出的方法判斷每首創作歌詞情緒的傾向,依此瞭解歌手創作時的心情變化。本論文所提出之方法期望未來對醫學上有所貢獻。
英文摘要 With the development of population, mental illness is getting more and more attention nowadays, especially the depression. According to WHO statistics, more than 300 million people of all age are affected by depression. Depression is on the rise globally and it will lead to suicide at its worst. Hence, how to prevent depression might be an important issue in public health.
In this study, we proposed a risk prediction model for depression based on text mining and sentiment analysis. First, we utilized text mining techniques to structure documents. Second, a scoring method was proposed to identify, extract and quantify the emotion of documents through sentiments analysis. Final, we built up a risk prediction model for depression and evaluated the degree of the symptoms of depression for subjects. Eighty-seven lyrics were analyzed and were applied to demonstrate the proposed model. These lyrics were written by a Korean singer-songwriter who suffered from depression and committed suicide in 2017 after depression got worse.
The proposed risk prediction model can evaluate people’s emotion change through their diaries, essays, blogs, lyrics and so on, as well as, this model might detect their conditions of symptoms getting worse or getting better in advance. We think the model will be useful in public health for early detection and prevention on suicide.
論文目次 目錄
第一章、緒論...............................................................................................................1
第一節、研究背景....................................................................................................1
第二節、研究動機與目的........................................................................................4
第三節、研究流程....................................................................................................5
第二章、背景介紹.......................................................................................................7
第一節、斷詞系統....................................................................................................7
第一項、SnowNLP套件.......................................................................................8
第二項、FoolNLTK ..............................................................................................9
第三項、結巴(Jieba)套件....................................................................................9
第四項、CKIP中文斷詞系統...........................................................................10
第二節、情感分析..................................................................................................11
第三節、意見詞辭典..............................................................................................13
第一項、增廣意見詞詞典(ANTUSD)................................................................13
第二項、中文維度情感字典(CVAW) ................................................................15
第四節、相近距離、相似群體配式法、相似度的概念配式..............................17
第五節、交叉驗證(CROSS VALIDATION)................................................................18
第一項、Leave One Out Cross Validation(LOOCV)..........................................18
第二項、K-fold Cross Validation........................................................................19
第三章、研究方法.....................................................................................................21
第一節、 資料收集................................................................................................21
第二節、資料前處理............................................................................................24
第一項、文字處理............................................................................................24
第二項、詞頻矩陣............................................................................................24
第三節、模型分析................................................................................................25
第一項、情感分數取得....................................................................................25
第二項、配適分數............................................................................................26
第四節、K-FOLD CROSS VALIDATION...................................................................31
第五節、文本情感分數模型與憂鬱指數的建立................................................31
第六節、實例應用的分析....................................................................................32
第四章、分析結果.....................................................................................................34
第一節、斷詞系統..................................................................................................34
第二節、意見詞辭典..............................................................................................36
第三節、分數預測與評估....................................................................................38
第一項、字詞情感分數估計............................................................................38
第二項、配適分數..............................................................................................40
第四節、歌詞整體情感分數................................................................................42
第五節、實例分析結果........................................................................................45
第一項、中文文本內容....................................................................................45
第二項、中文文本+英文文本內容.................................................................47
第六節、憂鬱指數估計........................................................................................48
第七節、其它實例驗證........................................................................................49
第五章、結論與限制、未來展望...........................................................................51
第一節、結論........................................................................................................51
第二節、文本限制................................................................................................52
第三節、未來展望................................................................................................54
參考文獻...................................................................................................................55
附錄............................................................................................................................59
附錄圖....................................................................................................................59
附錄表....................................................................................................................64
附錄文本..............................................................................................................65
示例............................................................................................................................79
JIEBA.......................................................................................................................79
CKIP ....................................................................................................................81

表目錄
表3.1 金鐘鉉寫給自己的歌。總計63首................................................................ 22
表3.2 金鐘鉉寫給自己團體的歌。總計16首........................................................ 22
表3.3 金鐘鉉寫給其他藝人、團體的創作歌。總計8首...................................... 23
表4.1 不同距離統計值的比較表………………………………………………………………………….38
表4.2 三種方法的MSE結果 ................................................................................... 39
表4.3 三種方法的缺失值比較.................................................................................. 39
表4.4 Hamming Distance、Euclidean Distance兩者統計量比較表 ...................... 42
表4.5 中文歌詞情感分數的描述性統計................................................................ 44
表4.6 中文歌詞+英文歌詞情感分數的描述性統計 ............................................. 44
表4.7 87首歌出版年代搭配不同對象結果............................................................ 45
表4.8 實例文本資料................................................................................................ 49
表4.9 實例整體情感分數、憂鬱指數...................................................................... 50
附錄表1部分CKIP及Jieba套件文字處理比較表……………………………………………..64
附錄表2 Hamming Distance無法配對的未知情感分數之字詞 ............................ 64
附錄表3 Euclidean Distance無法配對的未知情感分數之字詞 ............................ 65
附錄表4 ANTUSD統計值結果............................................................................... 65
附錄表5 87首文本歌詞憂鬱指數.............................................................................65
附錄表6 未預測分數之87首文本歌詞憂鬱指數………………………………....68

圖目錄
圖2.1 SnowNLP斷詞結果 ........................................................................................... 8
圖2.2 Foolnltk斷詞結果 .............................................................................................. 9
圖2.3 Jieba斷詞結果 ................................................................................................. 10
圖2.4 CKIP斷詞結果 ................................................................................................ 11
圖2.5 CVAW欄位說明………….….…………………………………………………………………………..16
圖2.6 CVAW散點圖 .................................................................................................. 17
圖2.7 10-fold Cross Validation ................................................................................... 20
圖3.1歌曲《놓아쥐》(Let Me Out) ………………………………………………………………….23
圖3.2 詞頻矩陣........................................................................................................ 25
圖3.3 歌曲《Lonely》副歌文本內容 .................................................................... 26
圖3.4 第一種詞頻矩陣呈現結果............................................................................ 27
圖3.5 第二種詞頻矩陣呈現結果............................................................................ 27
圖3.6 相似度概念示意圖........................................................................................ 30
圖4.1 CKIP斷詞範例 …………………………………………………………………………………………35
圖4.2 Jieba斷詞範例 ................................................................................................. 36
圖4.3 每首歌字詞出現總次數示意圖.................................................................... 43
圖4.4 中文文本內容分開圖表................................................................................ 46
圖4.5 中文文本+英文文本內容分開圖表 ............................................................. 47
圖4.6 ANTUSD情感分數分佈 ............................................................................ 49

附錄圖1中文文本,87首整體歌詞搭配年代比較 …………………………………………..59
附錄圖2 中文文本,63首寫給自己歌詞搭配年代比較.................................... 60
附錄圖3 中文文本,16首寫給自己團體歌詞搭配年代比較............................ 60
附錄圖4 中文文本,8首寫給其他藝人或團體歌詞搭配年代比較.................... 61
附錄圖5 中文文本+英文文本,87首整體歌詞搭配年代比較 ........................... 62
附錄圖6 中文文本+英文文本,63首寫給自己歌詞搭配年代比較 ................... 62
附錄圖7 中文文本+英文文本,16首寫給自己團體歌詞搭配年代比較 ........... 63
附錄圖8 中文文本+英文文本,8首寫給其他藝人或團體歌詞搭配年代比較 . 63

文本目錄
附錄文本1楊培安《我相信》 ...................................................................... 71
附錄文本2 范瑋琪《最初的夢想》 .............................................................. 71
附錄文本3 深白色二人組《魚在水裡哭》 .................................................. 72
附錄文本4 那英《夢一場》 ............................................................................ 73
附錄文本5 蕭敬騰《狂想曲》 ........................................................................ 73
附錄文本6 周杰倫《本草綱目》 .................................................................. 74
附錄文本7 蒲公英希望基金會《一起分享愛》 ............................................ 75
附錄文本8 張曉風《地毯的那一端》 ............................................................ 75
附錄文本9 白先勇《孽子》 ............................................................................ 76
附錄文本10 張閔筑《我死了對全世界都好》 .............................................. 76
附錄文本11 林弈含《房思琪的初戀樂園》 .................................................. 77
附錄文本12 蔡康永《蔡康永的說話之道》 .................................................. 77
參考文獻 吳宗耀(2017)。文字情感分析:利用病徵分析病患自撰之日誌。中原大學資訊工程學系碩士論文。中原大學。桃園市。
林岳達(2017)。應用深度學習於社群網路消費者評論之情感分析研究。淡江大學資訊管理學系碩士論文。淡江大學。新北市。
施曉萍(2012)。利用類別關聯規則探勘來協助顧客評論之情感分析。元智大學資訊管理學系碩士論文。桃園市。
徐筱雁(2014)。情感分析中屬性詞與情感詞的關係之探討-以牛肉麵食評為例。國立聯合大學資訊管理學系碩士論文。苗栗市。
張育蓉(2012)。使用情緒分析於圖書館使用者滿意度評估之研究。國立中興大學圖書資訊學系碩士論文。國立中興大學。台中市。
陳庭勛(2015)。文字情感分析:病患自撰之日誌。中原大學資訊工程學系碩士論文。中原大學。桃園市。
楊惠淳(2011)。以主客觀分析與相互資訊檢索探討情感分析之準確度─以電影評論為例。國立臺北科技大學資訊與運籌管理學系碩士論文。國立臺北科技大學。台北市。
廖瑩蒨(2018)。網路意見評論之中文情感分析。淡江大學統計學系應用統計學碩士論文。淡江大學。新北市。
劉炅函(2017)。中文情感分析應用於PTT之研究。淡江大學統計學系碩士論文。淡江大學。新北市。
劉姿妤(2009)。應用探勘產品特色與意見相依關係於中文評論之意見分析。國立成功大學資訊工程學系碩士論文。台南市。
56
謝鎮宇(2010)。意見探勘在中文評鑑語料之應用。國立交通大學資訊學院碩士在職專班資訊組碩士論文。國立交通大學。新竹市。
簡之文(2012)。部落格文章情感分析之研究。淡江大學資訊管理學系碩士論文。淡江大學。新北市。
Hamming, R. W. (1950). Error Detecting and Error Correcting Codes. Bell System Technical Journal 26, 147-160.
Hu, X., Downie, J. S., & Ehmann, A. F. (2009). Lyric Text Mining in Music Mood Classification. American music, 183(5,049), 2-209.
Hutto, C. J., & Gilbert, E. (2014, May). Vader: A Parsimonious Rule-based Model for Sentiment Analysis of Social Media Text. In Eighth international AAAI conference on weblogs and social media.
Ku, L. W., Ho, H. W., & Chen, H. H. (2009). Opinion Mining and Relationship Discovery Using CopeOpi Opinion Analysis System. Journal of the American Society for Information Science and Technology, 60(7), 1486-1503.
Ku, L. W., & Chen, H. H. (2007). Mining Opinions from The Web: Beyond Relevance Retrieval. Journal of the American Society for Information Science and Technology, 58(12), 1838-1850.
Li, C. R., Yu, C. H., & Chen, H. H. (2011). Predicting The Semantic Orientation of Terms in E-HowNet. In Proceedings of the 23rd conference on computational linguistics and speech processing Association for Computational Linguistics, September 2011, 151-165.
Ma, W. Y., & Chen, K. J. (2003). A Bottom-up Merging Algorithm for Chinese Unknown Word Extraction. In Proceedings of the second SIGHAN workshop on
57
Chinese language processing. Association for Computational Linguistics. July 2003, 17, 31-38.
Peng, H., Cambria, E., & Hussain, A. (2017). A Review of Sentiment Analysis Research in Chinese Language. Cognitive Computation, 9(4), 423-435.
Sun, Y. T., Chen, C. L., Liu, C. C., Liu, C. L., & Soo, V. W. (2010). 中文短句之情緒分類(Sentiment Classification of Short Chinese Sentences)[In Chinese]. In Proceedings of the 22nd Conference on Computational Linguistics and Speech Processing (ROCLING 2010), 184-198.
Tung, C., & Lu, W. (2015). Analysis and Prediction of Blogger’s Depression Tendency [In Chinese]. In Proceedings of the 27th Conference on Computational Linguistics and Speech Processing (ROCLING 2015). 263-276.
Tung, C., & Lu, W. (2016). Analyzing Depression Tendency of Web Posts Using an Event-driven Depression Tendency Warning Model. Artificial intelligence in medicine, 66, 53-62.
Yu, L. C., Lee, L. H., Hao, S., Wang, J., He, Y., Hu, J., & Zhang, X. (2016). Building Chinese Affective Resources in Valence-arousal Dimensions. In Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 540-545.
Yue, C. S. & Ho, L. H. & Pam, Y. Y. (2016). A Quantitative Study of Chinese Writing Style, Based on New Youth. Concepts and Context in East Asia. 5, December 2016, 87-102
Xianghua, F., Guo, L., Yanyan, G., & Zhiqiang, W. (2013). Multi-aspect Sentiment Analysis for Chinese Online Social Reviews Based on Topic Modeling and
58
HowNet Lexicon. Knowledge-Based Systems, 37, 186-195.
Wang, S. M., & Ku, L. W. (2016). ANTUSD: A Large Chinese Sentiment Dictionary. In LREC. , Paris, France, May 2016, 2697-2702.
Liu, B. (2015). Sentiment Analysis Mining Opinions, Sentiments, and Emotions. June 2015. Location: Publisher: Cambridge University Press.
論文使用權限
  • 同意紙本無償授權給館內讀者為學術之目的重製使用,於2019-08-26公開。
  • 同意授權瀏覽/列印電子全文服務,於2019-08-26起公開。


  • 若您有任何疑問,請與我們聯絡!
    圖書館: 請來電 (02)2621-5656 轉 2486 或 來信