淡江大學覺生紀念圖書館 (TKU Library)
進階搜尋


下載電子全文限經由淡江IP使用) 
系統識別號 U0002-1606201111464500
中文論文名稱 基於中文斷詞技術之新聞網頁分類系統
英文論文名稱 Automatic News Pages Classification System Based on Chinese Word Segmentation
校院名稱 淡江大學
系所名稱(中) 資訊工程學系碩士班
系所名稱(英) Department of Computer Science and Information Engineering
學年度 99
學期 2
出版年 100
研究生中文姓名 林孟翰
研究生英文姓名 Meng-Han Lin
電子信箱 linboblinbob@hotmail.com
學號 698410734
學位類別 碩士
語文別 中文
第二語文別 英文
口試日期 2011-06-16
論文頁數 37頁
口試委員 指導教授-蔡憶佳
委員-林慧珍
委員-林慶昌
委員-林政錦
委員-蔡憶佳
中文關鍵字 貝氏分類法  查全率 
英文關鍵字 Naive Bayes Classifier  Recall Rate 
學科別分類 學科別應用科學資訊工程
中文摘要 近年來隨著網路的發展,網路已經是人們生活中不可缺少的一部份,利用網路的便利性與互動性,可以使網路使用者知道近期內所發生的事情,也因為網路擁有這些特性,使得新聞資訊成長非常的快速。然而這樣的狀況衍生了一個問題,如何讓網路使用者能夠得知正確或是相關的訊息則是當下不得不面對的重要問題。
在本論文中建立了一個以基於中文斷詞技術的新聞網頁分類系統,把網路上所擷取的文章,利用統計式斷詞法來計算出各種詞在文章中出現的次數,然後設定一個門檻值,若是統計過次數的詞未超過系統所設定的門檻值,則將該詞從詞庫中刪除。接著把符合的詞配合單純貝氏分類與結合權重的貝氏分類兩種分類方法來比較哪一種分類方法較佳。
實驗結果顯示,利用單純貝氏分類的分類結果比結合權重的貝氏分類的分類結果還要好,分類的查全率最高可達71%。從結果來看,利用門檻值的設定將不正確的詞刪除,配合單純貝氏分類法來做分類具有不錯的效果。
英文摘要 With the vigorous development of the Internet, network is becoming indispensable to many people’s everyday life. Due to the convenience of reading news from the network, the number of users learning recent events from the Internet is growing rapidly. This also caused a large number of news agencies made their news available on the network. Thus, how to enable users receive relevant or interested news is an important issue. One way is to build an automatic news classification system that allows users to read from different categories of their interests.
In this paper, a news page classification system based on Chinese word segmentation is set up. It can automatically download news pages and use the n-gram algorithm for word segmentation. After word segmentation, we compare the performance of two classification schemes. Naïve Bayes classifier has higher recall rate, average recall rate is 71%. Experimental results show that Naïve Bayes classifier with n-gram for word segmentation has a better performance over.
論文目次 第一章 緒論 1
1.1 研究背景 1
1.2 研究目的 1
1.3 論文架構 2
第二章 相關研究 3
2.1 中文斷詞 3
2.1.1 法則式斷詞法 4
2.1.2 統計式斷詞法 5
2.1.3 混合式斷詞法 6
2.2 機器學習 7
2.3 文件分類方法 9
2.3.1 遺傳演算法 9
2.3.2 K-最鄰近法 10
2.3.3 決策樹 11
2.3.4 單純貝氏分類法 11
2.3.5 結合權重的貝氏分類法 13
第三章 研究方法與系統架構 14
3.1 研究方法 14
3.2 系統架構 14
3.3 系統說明 15
3.3.1 訓練模組 15
3.3.2 分類模組 20
第四章 實驗結果與分析 22
4.1 實驗環境 22
4.2 實驗資料 22
4.2.1 詞庫資料 22
4.2.2 訓練資料 24
4.2.3 測試資料 24
4.3 實驗結果 24
4.4 實驗結果分析 26
第五章 結論與未來方向 28
參考文獻 29
附錄-英文論文 31

圖目錄
圖一 決策樹範例 12
圖二 新聞網頁分類系統架構圖 15
圖三 訓練模組流程圖 16
圖四 新聞網頁的內容範例 17
圖五 斷句步驟 18
圖六 斷詞與統計步驟 19
圖七 分類後的結果 21

表目錄
表一 實驗環境 22
表二 各詞庫的門檻值 23
表三 各詞庫中各類別的詞數 25
表四 單純貝氏分類中各詞庫的分類結果 25
表五 結合權重的貝氏分類中各詞庫的分類結果 26
表六 單純貝氏分類中各類別查全率最高的詞庫 27
表七 結合權重的貝氏分類中各類別查全率最高的詞庫 27

參考文獻 [1] 王良志、貝子勝、黎偉權、黃麗卿,「以剖析為導向的中文斷詞法」,電子發展月刊,163期,pp.40-45,1911。
[2] 唐大仁,2002,「中文斷詞器之研究」,碩士論文(指導教授:王逸如),交通大學電信工程研究所。
[3] 陳克建、陳正佳、林隆基,「中文語句分析的研究-斷詞與構詞」,中央研究院資訊所技術報告,TR86-004,1986。
[4] 陳稼興、謝佳倫、許芳誠,「以遺傳演算法為基礎的中文斷詞研究」,資訊管理研究第二卷第二期,pp. 27-44,2000。
[5] 陳永德,1997,「中文斷詞中長詞優先、詞頻比對與前詞優先規則之使用」,國立台灣大學心理學研究所博士論文
[6] 蔡志浩, MMSEG: A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm, http://technology.chtsai.org/mmseg/, 2000.
[7] D. D. Lewis, “Naive (Bayes) at Forty: The Independence Assumption in Information Retrieval,” Proceedings of the 10th European Conference on Machine Learning, Chemnitz, Germany, pp. 4-15, April 21-23, 1998.
[8] G. C. Li, K. Y. Liu, and Y. K. Zhang, “Identifying Chinese Word and Processing Different Meaning Structures,” Journal of Chinese Information Processing, Vol. 2, pp. 45-53, 1988.
[9] J. H. Holland, Adaptation in natural and artificial systems. The University of Michigan Press, Ann Arbor, 1975.
[10] J. R. Quinlan, “Induction of Decision Trees,” Machine Learning, Vol. 1, pp. 81-106, 1986.
[11] J. Y. Nic, and M. Briscobois, “On Chinese Text Retrieval,” Proceeding of SIGIR, pp. 225-233, 1996.
[12] K. W. Gan, M. Palmer and K. T. Lua, “A Statistically Emergent Approach for Language Processing: Application to Modeling Context Effects in Ambiguous Chinese Word Boundary Perception,” Computational Linguistics, pp. 531-553, 1996.
[13] Language Information Sciences Research Centre City University of Hong Kong, available at www.sighan.org/bakeoff2005/data/cityu_spec.pdf
[14] M. Goldstein, “K-Nearest Neighbor Classification,” IEEE Transactions on Information Theory, 1972.
[15] N. Xue, “Chinese Word Segmentation as Character Tagging,” International Journal of Computational Linguistics and Chinese, pp. 29–48, 2003
[16] N.Y. Liang, “Knowledge of Chinese Word Segmentation,” Journal of Chinese Information Processing, Vol. 4, pp. 42-49, 1990.
[17] R. Sporat, C. Shih, W. Gale and N. Chang, “A Stochastic Finite-State Word-Segmentation Algorithm for Chinese,” Computational Linguistics, Vol. 22, pp. 377-404, 1996.
[18] R. Sporat and C. Shih, “A Statistical Method for Finding Word Boundaries in Chinese Text,” Computer Processing of Chinese and Oriental Languages, Vol. 4, No. 4, pp. 336-351, 1990.
論文使用權限
  • 同意紙本無償授權給館內讀者為學術之目的重製使用,於2013-07-04公開。
  • 同意授權瀏覽/列印電子全文服務,於2013-07-04起公開。


  • 若您有任何疑問,請與我們聯絡!
    圖書館: 請來電 (02)2621-5656 轉 2281 或 來信