§ 瀏覽學位論文書目資料
系統識別號 U0002-1902201001514400
DOI 10.6846/TKU.2010.01282
論文名稱(中文) 個別化網頁文件自動分類
論文名稱(英文) Individualized automatic classification of web documents
第三語言論文名稱
校院名稱 淡江大學
系所名稱(中文) 資訊工程學系碩士在職專班
系所名稱(英文) Department of Computer Science and Information Engineering
外國學位學校名稱
外國學位學院名稱
外國學位研究所名稱
學年度 98
學期 1
出版年 99
研究生(中文) 陳冠宇
研究生(英文) Kaun-Yu Chen
學號 795410249
學位類別 碩士
語言別 繁體中文
第二語言別 英文
口試日期 2010-01-15
論文頁數 62頁
口試委員 指導教授 - 蔡憶佳(eplusplus@gmail.com)
委員 - 顏淑惠(105390@mail.tku.edu.tw)
委員 - 林政錦
委員 - 蔡憶佳(eplusplus@gmail.com)
關鍵字(中) 自動分類
關鍵字(英) automatic classification
第三語言關鍵字
學科別分類
中文摘要
隨著網路時代的來臨,透過網路閱讀新聞已成為大眾獲取資訊的重要來源。目前各大網站都使用自訂的分類方法顯示新聞,如此卻常造成分類不足或是分類太細的情況。
因此,本研究提出一個以內容為基礎的新聞分類方法,實作可依個人需求設定分類的新聞自動分類器。該自動分類器經過訓練後,可將新聞內容加以分析,再以個人化的分類方法重新顯示。
此外,為了要能立即取得並分析最新的新聞,故本研究使用計算速度較快的「單純貝式」分類方法來預測分類結果,並使用搜尋引擎和網上信息挖掘學術研討會(Symposium of Search Engine and Web Mining,SEWM) 2006年所提供的中文新聞資料庫進行實驗。
最後,本研究經前述方法實證後,新聞分類的查全率可到82%以上,查準率可達96%以上。
英文摘要
With the advent of the Internet age, reading news from the internet has become an important source of getting information. At present, major websites use their own classification method to display the news, but that usually is insufficient or produces too many classifications.
For this reason, this research brings up a classification method basing on contents of news, and implements an automatic classifier according to personal demands. After the automatic classification system being trained, it can analyze the contents of news and then display them afresh with personal classification methods.
Besides, in order to obtain and analyze the latest news, this research uses the Naïve Bayes classification method which calculates faster to predict the results of classification, and uses a search engine and the Chinese news database provided by Symposium of Search Engine and Web Mining(SEWM) in 2006 to perform the experiment.
Finally, by practically operating this research with the methods mentioned above, the recall rate of news classification can reach a result of more than 82%, and the precision rate can reach a result of more than 96%.
第三語言摘要
論文目次
第一章	緒論	1
1.1	研究背景	1
1.2	研究動機與目的	2
1.3	研究範圍與限制	4
1.4	論文架構	5
第二章	文獻探討	6
2.1	網頁文件	6
2.1.1	全球資訊網	6
2.1.2	超文件傳輸協定	7
2.1.3	超文件標示語言	8
2.1.4	網址	9
2.2	網頁文件結構分析	10
2.2.1	DOM樹狀結構關連	10
2.3	文件分類	12
2.3.1	單純貝氏分類	13
2.3.2	決策樹	15
2.3.3	K-最鄰近法	17
2.4	中文斷詞	18
2.4.1	法則式斷詞法	20
2.4.2	統計式斷詞法	22
2.4.3	混合式斷詞法	23
第三章	研究架構與實做	24
3.1	環境架構	24
3.2	系統架構	25
3.3	系統功能說明	26
3.3.1	分類器訓練模組	26
3.3.2	自動分類模組	30
第四章	資料分析與實驗結果	34
4.1	開發與實驗環境	34
4.1.1	XOOPS內容管理平台	35
4.1.2	中文詞庫	35
4.2	實驗資料	35
4.3	評估方法	37
4.4	實驗結果	38
第五章	研究結論與建議	42
參考資料	43
附錄		45
附錄(一)、訓練資料集範例-網頁	45
附錄(二)、訓練資料集範例-原始碼	46
附錄(三)、 英文論文	56

圖目錄
圖 1-1美國各類媒體閱讀新聞的比例走勢圖	1
圖 1-2雅虎奇摩與pchome online新聞體育類差異比較	3
圖 2-1 Basic Client-Server Model 表示圖	8
圖 2-2 DOM樹狀結構圖(a)與遊走個節點的指令(b)	10
圖 2-3 DOM方法轉為樹狀的結構分類器訓練流程圖	11
圖 2-4決策樹圖形	16
圖 2-5 KNN分類法將資料轉化為向量空間	17
圖 3-1系統環境架構圖	24
圖 3-2新聞自動分類系統架構圖	26
圖 3-3分類器訓練流程圖	27
圖 3-4新聞原圖	29
圖 3-5自行開發的斷詞功能展示	29
圖 3-6自動分類模組執行流程圖	30
圖 3-7由詞頻計算在每個分類的分數	32
圖 3-8顯示分類結果	32

表目錄
表 2-1高爾夫會員打球狀況的紀錄	16
表 3-1分類器訓練時儲存的詞類欄位	30
表 3-2統計各分類詞頻的欄位	30
表 4-1開發及實驗環境	34
表 4-2硬體環境	34
表 4-3 2006 SEWM新聞網頁分類訓練資料集	36
表 4-4測試資料集結構	37
表 4-5訓練結果	38
表 4-6 240篇測試文章分類結果	39
表 4-7財經類21篇錯誤的分類結果	40
表 4-8財經類自動分類修正結果	41
表 4-9經過修正後的分類結果	41
參考文獻
期刊論文:
[1]Lewis, D. D. , Naive (Bayes) at forty: The independence assumption in information retrieval. Proceedings of ECML '98.,1998
[2] Liang N.Y., "CDWS: An Automatic Word Segmentation System for Written Chinese Texts",Journal of Chinese Information Processing, Vol. 1,No.2, 1987 
[3] Chen K.J. and S.H. Liu, “Word Identification for Mandarin Chinese Sentences”, Proceeding of COLING-92, 14th Int. Conf. On Computational Linguistics , pp. 101-107, 1992. 
[4] Li, G.C., K.Y. Liu and Y K. Zhang, “Identifying Chinese Word and Processing Different Meaning Structures”, Journal of Chinese Information Processing, Vol. 2, pp. 45-53, 1988. 
[5] Liang, N.Y. “Knowledge of Chinese Word Segmentation”, Journal of Chinese Information Processing, Vol. 4, pp. 42-49, 1990.
[6] C.K. Fan, and W.H. Tsai,"Disambiguation of phonetic Chinese Input by relaxation-based word identification, "Proceeding of R.O.C. Computational linguistics workshops I, October,1989 
[7] C.K. Fan and W.H. Tsai,"Automatic word identification in Chinese sentences by the relaxation technique," Computer Processing of Chinese and Oriental Language. Vol.4,No.1,November 1988  
[8] Fung, P. and D. Wu, “Statistical Augmentation of a Chinese Machine-Readable Dictionary,” Proceedings of Second Annual Workshop on Very Large Corpora, pp. 33-56, 1994.

網路資訊:
[9] Pew Research Center . http://people-press.org/report/479/internet-overtakes-newspapers-as-news-source
[10] W3C. http://www.w3.org/
[11]數學之美(系列二):談談中文分詞.http://www.googlechinablog.com/2006/04/blog-post_10.html
[12] XOOPS內容管理系統. http://xoops.tnc.edu.tw/
[13]線上中文工具 (詞庫). http://www.mandarintools.com/ 
[14]搜尋引擎和網上信息挖掘學術研討會.http://www.sewm2006.sdu.edu.cn/index.htm
論文全文使用權限
校內
紙本論文於授權書繳交後2年公開
校內書目立即公開
校外
不同意授權

如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信