§ 瀏覽學位論文書目資料
  
系統識別號 U0002-2302201715025900
DOI 10.6846/TKU.2017.00804
論文名稱(中文) 使用文字探勘實作新聞事件追蹤
論文名稱(英文) News event tracking using text mining
第三語言論文名稱
校院名稱 淡江大學
系所名稱(中文) 資訊工程學系碩士班
系所名稱(英文) Department of Computer Science and Information Engineering
外國學位學校名稱
外國學位學院名稱
外國學位研究所名稱
學年度 105
學期 1
出版年 106
研究生(中文) 郝志揚
研究生(英文) Jr-Yang Hau
學號 603410548
學位類別 碩士
語言別 繁體中文
第二語言別 英文
口試日期 2017-01-10
論文頁數 58頁
口試委員 指導教授 - 蔡憶佳
委員 - 顏淑惠
委員 - 林慶昌
關鍵字(中) 文字探勘
網路爬蟲
結巴斷詞
文章分群
關鍵字(英) text mining
Web crawler
Jieba Segmentation
cluster analysis
第三語言關鍵字
學科別分類
中文摘要
現今網路上有大量的文字資料,例如:新聞網,PTT、facebook.. 等,由於這些資料繁多雜亂,可以透過文字探勘的方式淬取出有用的資訊,讓人們能有效率的掌握這些網路文字所提供的訊息。
本論文利用R 語言建立一個新聞事件追蹤系統,透過網路爬蟲爬取新聞文章,將爬取的文章做清理,利用jieba 斷詞後,依據各文章中斷詞的結果建立詞頻矩陣,透過TF-IDF 的計算找出關鍵字,最後將每篇文章中所切出來的關鍵字做文章相似度分析來實踐相似文章追蹤的系統。
本論文擷取了1500 篇新聞文章,透過上述文字探勘的步驟,將這1500 篇新聞透過計算文章間的餘弦距離來做文章相似度分析,加入沃德法(Ward‘s method)使群內的總變異變小,使群間的總變異變大,以判斷出最佳分群數目,實驗結果顯示爬取的1500 篇新聞經過此文字探勘步驟後,可以透過文章查詢函式來查詢相似的新聞,實踐新聞事件的追蹤。
英文摘要
Nowadays, there are massive text data on the internet. For example, news websites, PTT, facebook etc. Since these data are all disordered, it is important to apply text-mining in order to extract the useful information for people to efficiently grasp the main idea the text contains. This thesis utilizes R language to construct a news event tracking system. Using crawler to crawl and cleans news articles, segmenting Chinese words using jiebaR.Then, based on the segmentation result to build a frequency matrix and find key words through computing TF-IFD. Lastly, compares the similarities of each articles by their key words to carry out the similar article tracking system. Implementing these steps of text mining, this thesis retrieved 1500 news articles and calculates the cosine distance of every article to analyze their similarity. In addition, to find the best amount of groups, we made use of Ward’s method to minimize the total variation of each group and maximize the total variation between groups. The experiment result shows that after applying the proposed text-mining method on 1500 news articles, we can achieve news event tracking to find similar articles via news inquiry function.
第三語言摘要
論文目次
目錄
Acknowledgements i
論文提要ii
Abstract iii
1 緒論 1
1.1 研究背景. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 研究目的. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 論文架構. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2 相關研究 3
2.1 文字探勘. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.2 網路爬蟲. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.3 中文斷詞. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.3.1 歧義性問題. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.3.2 未知詞問題. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.4 中文斷詞方法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.4.1 統計式斷詞法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.4.2 法則式斷詞法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.4.3 jieba斷詞法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.5 機器學習. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.5.1 監督式學習. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.5.2 非監督式學習. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3 研究方法與系統架構                           12
3.1 系統架構. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.2 網路爬蟲. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.3 清理資料. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.4 文字處理. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.4.1 斷句. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.4.2 jieba 斷詞. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.5 資料量化. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.5.1 詞頻矩陣. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.5.2 計算TF-IDF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.6 文字探勘分析. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.6.1 文字雲. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.6.2 相似度計算. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.6.3 文章分群. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4 實驗結果與分析 32
4.1 實驗環境. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4.2 實驗資料. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.3 1500 篇新聞分群結果. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4.4 相似文章查詢系統. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5 結論與未來展望 44
參考文獻 46
A 英文論文 49
圖目錄
2.1 DOM TREE-1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.2 DOM TREE-2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.3 Jieba 斷詞過程. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.1 系統架構圖. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.2 網路爬蟲架構圖. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.3 網路爬蟲步驟圖. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.4 蘋果日報新聞. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.5 dataframe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.6 未經過清理的資料. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.7 處理過的文章. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.8 斷句前文章內容. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.9 斷句後結果. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.10 jieba 斷詞處理流程圖. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.11 斷詞前新聞稿. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.12 jieba 斷詞後新聞稿. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.13 文字雲. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.14 cosine 夾角. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.1 dataframe 格式. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4.2 子群集1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.3 子群集2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.4 子群集3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.5 日本九州地震新聞. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.6 相似新聞結果. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.7 kobe bryant 退休新聞. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.8 相似新聞結果. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.9 大巨蛋案新聞. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.10 相似新聞結果. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
表目錄
3.1 詞頻矩陣1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.2 詞頻矩陣2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.3 詞頻矩陣3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
參考文獻
[1] 蘋果日報, http://www.appledaily.com.tw, 2016.4.15.
[2] 范長康、蔡文祥, “以鬆弛法做中文斷詞及其應用”, in 國立交通大學機構典藏,1990.
[3] 林千翔、張嘉惠、陳貞伶, “結合長詞優先與序列標記之中文斷詞研究”, in 國家圖書館期刊文獻資訊網, Tech. Rep, 2010.
[4] A.B.Goldberg and X. Zhu, “Seeing stars when there aren’t many stars: Graph-based semi-supervised learning for sentiment categorization”, in In Proceedings of the First Workshop on Graph Based Methods for Natural Language Processing, ser. TextGraphs-1. Stroudsburg, PA, USA: Association for Computational Linguistics, 2006.
[5] P. Butka and J. Pocsova, “Hierarchical fca-based conceptual model of text documents used in information retrieval system”, in In 6th IEEE International Symposium, 2011.
[6] Y.-H. Chen, E. J.-L. Lu, and T.-Y. Wu, “A blog clustering approach based on queried
keywords”, in International Symposium on Biometrics and Security Technologies,2013.
[7] C.L.Goh, M.Asahara, and Y. Matsumoto, “Chinese word segmentation by classification of characters”, in Computational Linguistics and Chinese Language Processing, Vol. 10,2005.
[8] M. Farhadloo and E. Rolland, “Multi-class sentiment analysis with clustering and score representation”, in In 2013 IEEE 13th International Conference on Data Mining Workshops (ICDMW), 2013.
[9] J Han, J Pei, and M Kamber, “Data mining: Concepts and techniques 3rd edition”, 2011.
[10] P. Han, D.-B. Wang, and Q.-G. Zhao, “The research on chinese document clustering based on weka”, in In International Conference on Machine Learning and Cybernetics (ICMLC), Guilin, 2011.
[11] A. Jain, M. Murty, and P. Flynn, “Data clustering: A review”, in ACM computing surveys (CSUR), 1999.
[12] J.-C. Jehng, S. Chou, C.-Y. Cheng, and J.-S. Heh, “An evaluation of the formal concept analysis-based document vector on document clustering”, in In International Conference on Computational Science and Its Applications (ICCSA),Santander, 2011.
[13] Jieba chinese text segmentation, https://github.com/fxsjy/jieba, ast accessed
Jan 2016.
[14] X. Luo, M.Sun, and B.K.Tsou, “Covering ambiguity resolution in chinese word segmentation based on contextual information”, in Proceedings of the 19th International Conference on Computational Linguistics - Volume 1, 2002.
[15] M.Li, J.Gao, C.Huang, and J.Li, “Unsupervised training for overlapping ambiguity resolution in chinese word segmentation”, in Proceedings of the Second SIGHAN Workshop on Chinese Language Processing - Volume 17, 2003.
[16] P.Gupta and K. Johari, “Implementation of web crawler,in 2009 2nd”, in Internationa Conference on Emerging Trends in Engineering and Technology (ICETET), 2009.
[17] Salton, Gerard, Buckley, and Chris, “Term-weighting approaches in automatic text retrieval”,1987.
[18] Sullivan, “Document warehousing and text mining: Techniques for improving business operations, marketing and sales (1st ed.)”, 2001.
[19] T.Mikolov, K.Chen, G.Corrado, and J.Dean, “Efficient estimation of word representations in vector space”, in In Proceeding of International Conference on Learning Representations,2013.
[20] V. Vapnik, “An overview of statistical learning theory”, in International Conference on Emerging Trends in Engineering and Technology (ICETET), 1999.
論文全文使用權限
校內
校內紙本論文立即公開
同意電子論文全文授權校園內公開
校內電子論文立即公開
校外
同意授權
校外電子論文立即公開

如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信