系統識別號 | U0002-1902201001514400 |
---|---|
DOI | 10.6846/TKU.2010.01282 |
論文名稱(中文) | 個別化網頁文件自動分類 |
論文名稱(英文) | Individualized automatic classification of web documents |
第三語言論文名稱 | |
校院名稱 | 淡江大學 |
系所名稱(中文) | 資訊工程學系碩士在職專班 |
系所名稱(英文) | Department of Computer Science and Information Engineering |
外國學位學校名稱 | |
外國學位學院名稱 | |
外國學位研究所名稱 | |
學年度 | 98 |
學期 | 1 |
出版年 | 99 |
研究生(中文) | 陳冠宇 |
研究生(英文) | Kaun-Yu Chen |
學號 | 795410249 |
學位類別 | 碩士 |
語言別 | 繁體中文 |
第二語言別 | 英文 |
口試日期 | 2010-01-15 |
論文頁數 | 62頁 |
口試委員 |
指導教授
-
蔡憶佳(eplusplus@gmail.com)
委員 - 顏淑惠(105390@mail.tku.edu.tw) 委員 - 林政錦 委員 - 蔡憶佳(eplusplus@gmail.com) |
關鍵字(中) |
自動分類 |
關鍵字(英) |
automatic classification |
第三語言關鍵字 | |
學科別分類 | |
中文摘要 |
隨著網路時代的來臨,透過網路閱讀新聞已成為大眾獲取資訊的重要來源。目前各大網站都使用自訂的分類方法顯示新聞,如此卻常造成分類不足或是分類太細的情況。 因此,本研究提出一個以內容為基礎的新聞分類方法,實作可依個人需求設定分類的新聞自動分類器。該自動分類器經過訓練後,可將新聞內容加以分析,再以個人化的分類方法重新顯示。 此外,為了要能立即取得並分析最新的新聞,故本研究使用計算速度較快的「單純貝式」分類方法來預測分類結果,並使用搜尋引擎和網上信息挖掘學術研討會(Symposium of Search Engine and Web Mining,SEWM) 2006年所提供的中文新聞資料庫進行實驗。 最後,本研究經前述方法實證後,新聞分類的查全率可到82%以上,查準率可達96%以上。 |
英文摘要 |
With the advent of the Internet age, reading news from the internet has become an important source of getting information. At present, major websites use their own classification method to display the news, but that usually is insufficient or produces too many classifications. For this reason, this research brings up a classification method basing on contents of news, and implements an automatic classifier according to personal demands. After the automatic classification system being trained, it can analyze the contents of news and then display them afresh with personal classification methods. Besides, in order to obtain and analyze the latest news, this research uses the Naïve Bayes classification method which calculates faster to predict the results of classification, and uses a search engine and the Chinese news database provided by Symposium of Search Engine and Web Mining(SEWM) in 2006 to perform the experiment. Finally, by practically operating this research with the methods mentioned above, the recall rate of news classification can reach a result of more than 82%, and the precision rate can reach a result of more than 96%. |
第三語言摘要 | |
論文目次 |
第一章 緒論 1 1.1 研究背景 1 1.2 研究動機與目的 2 1.3 研究範圍與限制 4 1.4 論文架構 5 第二章 文獻探討 6 2.1 網頁文件 6 2.1.1 全球資訊網 6 2.1.2 超文件傳輸協定 7 2.1.3 超文件標示語言 8 2.1.4 網址 9 2.2 網頁文件結構分析 10 2.2.1 DOM樹狀結構關連 10 2.3 文件分類 12 2.3.1 單純貝氏分類 13 2.3.2 決策樹 15 2.3.3 K-最鄰近法 17 2.4 中文斷詞 18 2.4.1 法則式斷詞法 20 2.4.2 統計式斷詞法 22 2.4.3 混合式斷詞法 23 第三章 研究架構與實做 24 3.1 環境架構 24 3.2 系統架構 25 3.3 系統功能說明 26 3.3.1 分類器訓練模組 26 3.3.2 自動分類模組 30 第四章 資料分析與實驗結果 34 4.1 開發與實驗環境 34 4.1.1 XOOPS內容管理平台 35 4.1.2 中文詞庫 35 4.2 實驗資料 35 4.3 評估方法 37 4.4 實驗結果 38 第五章 研究結論與建議 42 參考資料 43 附錄 45 附錄(一)、訓練資料集範例-網頁 45 附錄(二)、訓練資料集範例-原始碼 46 附錄(三)、 英文論文 56 圖目錄 圖 1-1美國各類媒體閱讀新聞的比例走勢圖 1 圖 1-2雅虎奇摩與pchome online新聞體育類差異比較 3 圖 2-1 Basic Client-Server Model 表示圖 8 圖 2-2 DOM樹狀結構圖(a)與遊走個節點的指令(b) 10 圖 2-3 DOM方法轉為樹狀的結構分類器訓練流程圖 11 圖 2-4決策樹圖形 16 圖 2-5 KNN分類法將資料轉化為向量空間 17 圖 3-1系統環境架構圖 24 圖 3-2新聞自動分類系統架構圖 26 圖 3-3分類器訓練流程圖 27 圖 3-4新聞原圖 29 圖 3-5自行開發的斷詞功能展示 29 圖 3-6自動分類模組執行流程圖 30 圖 3-7由詞頻計算在每個分類的分數 32 圖 3-8顯示分類結果 32 表目錄 表 2-1高爾夫會員打球狀況的紀錄 16 表 3-1分類器訓練時儲存的詞類欄位 30 表 3-2統計各分類詞頻的欄位 30 表 4-1開發及實驗環境 34 表 4-2硬體環境 34 表 4-3 2006 SEWM新聞網頁分類訓練資料集 36 表 4-4測試資料集結構 37 表 4-5訓練結果 38 表 4-6 240篇測試文章分類結果 39 表 4-7財經類21篇錯誤的分類結果 40 表 4-8財經類自動分類修正結果 41 表 4-9經過修正後的分類結果 41 |
參考文獻 |
期刊論文: [1]Lewis, D. D. , Naive (Bayes) at forty: The independence assumption in information retrieval. Proceedings of ECML '98.,1998 [2] Liang N.Y., "CDWS: An Automatic Word Segmentation System for Written Chinese Texts",Journal of Chinese Information Processing, Vol. 1,No.2, 1987 [3] Chen K.J. and S.H. Liu, “Word Identification for Mandarin Chinese Sentences”, Proceeding of COLING-92, 14th Int. Conf. On Computational Linguistics , pp. 101-107, 1992. [4] Li, G.C., K.Y. Liu and Y K. Zhang, “Identifying Chinese Word and Processing Different Meaning Structures”, Journal of Chinese Information Processing, Vol. 2, pp. 45-53, 1988. [5] Liang, N.Y. “Knowledge of Chinese Word Segmentation”, Journal of Chinese Information Processing, Vol. 4, pp. 42-49, 1990. [6] C.K. Fan, and W.H. Tsai,"Disambiguation of phonetic Chinese Input by relaxation-based word identification, "Proceeding of R.O.C. Computational linguistics workshops I, October,1989 [7] C.K. Fan and W.H. Tsai,"Automatic word identification in Chinese sentences by the relaxation technique," Computer Processing of Chinese and Oriental Language. Vol.4,No.1,November 1988 [8] Fung, P. and D. Wu, “Statistical Augmentation of a Chinese Machine-Readable Dictionary,” Proceedings of Second Annual Workshop on Very Large Corpora, pp. 33-56, 1994. 網路資訊: [9] Pew Research Center . http://people-press.org/report/479/internet-overtakes-newspapers-as-news-source [10] W3C. http://www.w3.org/ [11]數學之美(系列二):談談中文分詞.http://www.googlechinablog.com/2006/04/blog-post_10.html [12] XOOPS內容管理系統. http://xoops.tnc.edu.tw/ [13]線上中文工具 (詞庫). http://www.mandarintools.com/ [14]搜尋引擎和網上信息挖掘學術研討會.http://www.sewm2006.sdu.edu.cn/index.htm |
論文全文使用權限 |
如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信