淡江大學覺生紀念圖書館 (TKU Library)
進階搜尋


下載電子全文限經由淡江IP使用) 
系統識別號 U0002-2607201013270200
中文論文名稱 新聞網頁自動分類系統
英文論文名稱 Automatic Classification System of News Pages
校院名稱 淡江大學
系所名稱(中) 資訊工程學系碩士班
系所名稱(英) Department of Computer Science and Information Engineering
學年度 98
學期 2
出版年 99
研究生中文姓名 林大澈
研究生英文姓名 Ta-Che Lin
電子信箱 lintache@hotmail.com
學號 697411766
學位類別 碩士
語文別 中文
第二語文別 英文
口試日期 2010-06-28
論文頁數 43頁
口試委員 指導教授-陳伯榮
委員-林慶昌
委員-陳伯榮
委員-蔡憶佳
中文關鍵字 貝氏分類器  查全率 
英文關鍵字 Naive Bayes Classifier  recall rate 
學科別分類 學科別應用科學資訊工程
中文摘要 隨著網際網路的蓬勃發展,網路上存在越來越多的資訊。但是如此迅速的發展也帶來新的問題,就是這樣眾多的新聞及訊息,而每個新聞網站的分類方式也不盡相同,要如何能夠快速的整理並吸收是一個需要面對的問題。
在本篇論文中建立了一個可自動更新監看新聞網頁並進行自動分類的系統,並將研究重點放在新聞網頁分類的部份。在這篇論文中使用的分類方法主要是以單純貝氏分類器為基礎,在最後計算新聞的分類機率時,同時計算每個單詞的權重,加強分類的準確度,以減少分類時發生同屬於多種分類或無法分類(同屬於全部分類)的情況。
分類系統先經過訓練模組訓練完960篇新聞後,有了分辨新聞的基礎能力。接著藉由測試200篇新聞後得知這個新聞網頁自動分類系統的平均查全率可以有78%,達到尚可接受的結果。實驗結果顯示將新聞裡的文字資訊藉由詞庫斷詞,當做訓練模組的特徵資料並經過統計詞頻資料後,配合結合了權重概念的貝氏分類方法的新聞分類系統可以有不錯的分類效果。
英文摘要 There are more and more information in the Internet by the vigorous development of the Internet. But this rapid development has brought about a new problem. That is there are such a large number of news and information, and the classifications of all the news sites are not the same. How to quickly organize the data and absorb them is a need to face.
In this paper, a classification system is set up through several researches focusing on the news page classification. It can automatically update the news pages and go on automatic classification. This system is based on Naïve Bayes Classifier. When it calculates the probability of news classification, it also calculates the weight of each word at the same time. Thus, it can increase the accuracy of classification and decrease the occurrence of a variety of classifications or not being classified (belong to all categories).
This classification system has the basic ability to distinguish information after training module has trained 960 news. Afterwards, by testing 200 news, the system’s average recall rate can be 78%, achieving acceptable results. Experimental results show that this system is able to have good performance of classification in the way that the text in the news are divided into broken words by word thesaurus as a feature information of training module, go on to count the word frequency information, combining concept of the weight with Naïve Bayes Classifier.
論文目次 第一章 緒論 1
1.1 研究背景 1
1.2 研究目的 1
1.3 論文架構 2
第二章 相關研究 3
2.1 機器學習 3
2.2 文件分類方法 4
2.2.1 單純貝氏分類法 5
2.2.2 決策樹 6
2.2.3 K-最鄰近法 7
2.2.4 基因演算法 8
2.2.5 向量空間法 10
2.2.6 類神經網路 12
2.3 中文斷詞 15
2.3.1 法則式斷詞法 17
2.3.2 統計式斷詞法 17
第三章 研究方法及系統架構 19
3.1 研究方法 19
3.2 系統架構 19
3.3 系統說明 20
3.3.1 訓練模組 20
3.3.2 自動分類模組 25
第四章 資料分析及實驗結果 29
4.1實驗環境 29
4.2 實驗資料 29
4.2.1 中文詞庫 29
4.2.2 訓練資料 30
4.2.3 測試資料 31
4.3 實驗結果 31
第五章 結論與建議 34
參考資料 35
附錄-英文論文 36
圖目錄
圖2-1 決策樹範例 7
圖2-2 基因演算法的演化流程圖 10
圖2-3 文件在向量空間模型中的表示法 12
圖2-4 類神經網路架構圖 13
圖3-1 新聞網頁分類系統架構圖 19
圖3-2 訓練模組流程圖 21
圖3-3 範例新聞網頁內文 23
圖3-4 斷詞結果 24
圖3-5 自動分類模組流程圖 26
圖3-6 計算單詞在每個分類得到的分數 28
圖4-1 實驗環境 29
圖4-2 訓練資料的結構定義 31
圖4-3 訓練結果 32
圖4-4 測試結果 32
圖4-5 法治類別10篇錯誤的分類結果 33



參考文獻 [1].D. D. Lewis, “Naive (Bayes) at Forty: The Independence Assumption in Information Retrieval,” Machine Learning: ECML-98, 1998.
[2].M. Goldstein, “K-Nearest Neighbor Classification,” IEEE Transactions on Information Theory, 1972.
[3].J. R. Quinlan, “Induction of Decision Trees,” Machine Learning 1, 1986, pp. 81-106.
[4].D. E. Goldberg, and J. H. Holland, “Genetic Algorithms and Machine Learning,” Machine Learning 3, 1988, pp. 95-99.
[5].G. Salton, A. Wong, and C. S. Yang, “A Vector Space Model for Automatic Indexing,” Communications of the ACM, 1975.
[6].D. F. Specht, “Probabilistic Neural Networks,” Neural Networks Volume 3, Issue 1, 1990, pp. 109-118.
[7].N. Y. Liang, “CDWS: An Automatic Word Segmentation System for Written Chinese Texts,” Journal of Chinese Information Processing Vol. 1, No. 2, 1987.
[8].K. J. Chen and S. H. Liu, “Word Identification for Mandarin Chinese Sentences,” Proceedings of the 14th conference on Computational linguistics, 1992, pp. 101-107.
[9].G. C. Li, K. Y. Liu and Y. K. Zhang, “Identifying Chinese Word and Processing Different Meaning Structures,” Journal of Chinese Information Processing, Vol. 2, 1988, pp. 45-53.
[10].N. Y. Liang, “Knowledge of Chinese Word Segmentation,” Journal of Chinese Information Processing, Vol. 4, 1990, pp. 42-49.
論文使用權限
  • 同意紙本無償授權給館內讀者為學術之目的重製使用,於2010-07-27公開。
  • 同意授權瀏覽/列印電子全文服務,於2012-07-27起公開。


  • 若您有任何疑問,請與我們聯絡!
    圖書館: 請來電 (02)2621-5656 轉 2281 或 來信