§ 瀏覽學位論文書目資料
  
系統識別號 U0002-0209201611280500
DOI 10.6846/TKU.2016.00076
論文名稱(中文) 用字典為基礎判別新聞事件類型:以體育新聞為例
論文名稱(英文) Dictionary-based news category classification : using sports news as example
第三語言論文名稱
校院名稱 淡江大學
系所名稱(中文) 資訊工程學系碩士班
系所名稱(英文) Department of Computer Science and Information Engineering
外國學位學校名稱
外國學位學院名稱
外國學位研究所名稱
學年度 104
學期 2
出版年 105
研究生(中文) 李儼倫
研究生(英文) Yen-Lung Lee
學號 603410902
學位類別 碩士
語言別 繁體中文
第二語言別
口試日期 2016-07-20
論文頁數 45頁
口試委員 指導教授 - 蔡憶佳(eplusplus@gmail.com)
委員 - 顏淑惠(105390@mail.tku.edu.tw)
委員 - 林慶昌(petani@gmail.com)
關鍵字(中) 體育新聞
斷詞
訓練字典
隱馬可夫模型
關鍵字(英) Sport News
Segmentation
Training Dictionary
Hidden Markov Model
第三語言關鍵字
學科別分類
中文摘要
資訊與網路科技的快速蓬勃發展,網際網路已成為目前最龐大的資料庫,使用者想要在這麼龐大的網頁當中蒐集相關資料,是相當地不容易。
本篇論文希望可以在短時間內幫助使用者去閱讀想要的資訊,透過中文斷詞作為文章分類的區分,計算出每個單詞在文章中出現的頻率,如此一來我們可以得知出現頻率高的字詞在本文章中是關鍵詞,代表這篇文章的主題都是以這些關鍵詞環繞作報導,使用者可以透過關鍵詞來尋找他們想要的資訊,便可以大幅降低不必要的搜尋時間。
實驗樣本取自東森新聞網站的 320 篇電子檔文章。並且將文章分為二類 : 訓練詞庫文章與測試文章。其中 285 篇從體育類別下載,作為訓練文章,35 篇為測試文章,前面 15 篇是從即時新聞下載,即時新聞裡面包括了各種新聞,所以這 15 篇都是綜合類別,另外後面 20 篇為評估效能 。訓練文章的目的是製作詞庫,而測試文章主要則是用來比對斷詞結果的成效。
英文摘要
Rapid and vigorous development of information network technology has resulted in the largest data repository. 
Collecting relevant information in such a large body of data is rather difficult for any user.

This paper is aimed to help users to grasp key information in a short period of time. 
We observe that term frequency in a article can be used as keyword for that article.
Article theme can be easily grasped based on these keywords.
Therefore, users can find the information they want through keyword and significantly reduce unnecessary search time.
Proper word segmentation enables article theme extraction. 
And article classification can be achieved by theme differentiation.

We use 320 articles in the theme classification experiment. These articles are divided into two categories: training and testing. 
There are 285 training samples, 
all belonging to the sports news theme.
There are 15 testing samples that are consists of themes picked at random.
The result is able to pick out 6 articles which belonging to sport news theme among the 15 testing samples.
Among the 20 negative samples, there are 4 false positives, all due to names related to sports events.
第三語言摘要
論文目次
目錄
Acknowledgements ii
論文提要 iii
Abstract iv
第一章 緒論 1
1.1 研究背景  1
1.2 研究動機  1
1.3 研究目的  2
1.4 論文架構  4
第二章 相關研究 5
2.1 利用標籤擷取網頁特性  5
2.2 中文斷詞相關背景  6
2.2.1 歧義性問題  7
2.2.2 未知詞問題  7
2.3 處理斷詞的方法  8
2.4 隱馬可夫模型 (Hidden Markov Model,HMM)  12
第三章 新聞擷取與中文斷詞系統 17
3.1 系統架構  17
3.2 網頁垃圾訊息去除 19
3.3 結巴的斷詞模式 22
3.4 去除虛詞  24
3.5 相似字與訓練詞庫  25
第四章 方法分析與實驗結果 28
4.1 實驗測試  28
4.1.1 N 連詞製作訓練詞庫 (N-gram) . 28
4.1.2 測試文章擷取結果  29
第五章 結論與未來展望 35
5.1 總結  35
參考文獻 37
附錄英文論文 39

圖目錄
1.1 結巴斷詞處理過程  3
2.1 HTML 範例原始碼  5
2.2 對應的 DOM Tree 結構  6
2.3 馬可夫模型狀態表示  13
2.4 馬可夫模型矩陣 A 表示全部的邊集合  14
2.5 隱馬可夫模型 V 表示狀態發射出來 M 種機率值集合  15
3.1 模組分析流程圖  18
3.2 集合與詞庫內的字詞  19
3.3 擷取前的來源網頁  21
3.4 擷取後的網頁結果  22
3.5 取文章中的句子當斷詞範例  23
3.6 結巴系統斷詞結果  23
3.7 擷取文章經過結巴精確模式斷詞結果  24
3.8 斷詞後的字詞次數  24
3.9 去除虛詞後的字詞次數 (縱軸代表字詞出現數量,橫軸代表字詞) 25
4.1 利用 N-gram 建立訓練詞庫結果 29
4.2 測試文章 1 本文內容 31
4.3 測試文章 2 本文內容  31
4.4 測試文章 6 本文內容  31
4.5 測試文章 7 本文內容  32
4.6 測試文章 10 本文內容  32
4.7 測試文章 13 本文內容  32
4.8 測試文章 15 本文內容  32

表目錄
4.1 測試文章前 15 篇: 權重最高前 5 個關鍵詞 30
4.2 測試文章後 20 篇: 權重最高前 5 個關鍵詞  33
參考文獻
[1] 范長康,蔡文祥, “以鬆弛法做中文斷詞及其應用”, 國立交通大學機構典藏, Tech.Rep., 1990.

[2] 林筱晴,陳信希, “語料庫統計值與全球資訊網統計值之比較:以中文斷詞應用為例”, 國立台灣大學機構典藏, Tech. Rep., 2004.

[3] 林千翔,張嘉惠,陳貞伶, “結合長詞優先與序列標記之中文斷詞研究”, 國家圖書館期刊文獻資訊網, Tech. Rep., 2010.

[4] Y. Bryan, “自製n-gram analyst 文字探勘(text mining) 軟體”, Tech. Rep. [Online].
Available: http : / / bryannotes . blogspot . tw / 2014 / 07 / python - n - gram - analyst-free-software.html.

[5] K.-J. Chen and W.-Y. Ma, “Unknown word extraction for chinese documents”, in Proceedings of the 19th International Conference on Computational Linguistics - Volume 1, 2002.

[6] W. Jiang, L. Huang, Q. Liu, and Y. Lü, “A cascaded linear model for joint chinese word segmentation and part-of-speech tagging”, in In Proceedings of the 46th Annual Meeting of the Association for Computational Linguistics, 2008.

[7] M. Li, J. Gao, C. Huang, and J. Li, “Unsupervised training for overlapping ambiguity resolution in chinese word segmentation”, in Proceedings of the Second SIGHAN Workshop on Chinese Language Processing - Volume 17, 2003.

[8] X. Luo, M. Sun, and B. K. Tsou, “Covering ambiguity resolution in chinese word segmentation based on contextual information”, in Proceedings of the 19th International
Conference on Computational Linguistics - Volume 1, 2002.

[9] W.-Y. Ma and K.-J. Chen, “A bottom-up merging algorithm for chinese unknown word extraction”, in Proceedings of the Second SIGHAN Workshop on Chinese Language Processing - Volume 17, 2003.

[10] K. Wang, C. Zong, and K.-Y. Su, “A character-based joint model for chinese word segmentation”, in Proceedings of the 23rd International Conference on Computational Linguistics, 2010.
論文全文使用權限
校內
校內紙本論文立即公開
同意電子論文全文授權校園內公開
校內電子論文立即公開
校外
同意授權
校外電子論文立即公開

如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信