§ 瀏覽學位論文書目資料
  
系統識別號 U0002-2006200611301300
DOI 10.6846/TKU.2006.00611
論文名稱(中文) 垃圾郵件過濾:資料採礦與中文斷詞技術之應用
論文名稱(英文) Spam Filtering: Application of Data Mining and Chinese Word Segmentation Technique
第三語言論文名稱
校院名稱 淡江大學
系所名稱(中文) 統計學系碩士班
系所名稱(英文) Department of Statistics
外國學位學校名稱
外國學位學院名稱
外國學位研究所名稱
學年度 94
學期 2
出版年 95
研究生(中文) 葉采羚
研究生(英文) Tsai-Ling Yeh
學號 693460023
學位類別 碩士
語言別 繁體中文
第二語言別
口試日期 2006-05-26
論文頁數 67頁
口試委員 指導教授 - 陳景祥
委員 - 歐士田
委員 - 陳錦華
關鍵字(中) 資料採礦
垃圾郵件
中文斷詞
機率類神經
C4.5
灰色區域
關鍵字(英) Data mining
Spam
Chinese Word Segmentation
Neural Network
C4.5
Gray Region
第三語言關鍵字
學科別分類
中文摘要
在尚未立法明確規範垃圾電子郵件的國家,運用科技來阻擋垃圾信為多數網路使用者自保的首要之道,阻擋垃圾信件的方法很多,近年來技術不斷翻新,但很少能達成百分之百的阻擋效果。本研究提出有效的過濾垃圾郵件方法,利用PHP網頁程式語言來擷取電子郵件特徵,再透過資料採礦技術工具中的C4.5決策樹及機率類神經網路法,經由中文斷詞系統辨析中文詞頻、詞序及詞性等因素,並加入「灰色區域」郵件分類作為新的輸出變數,輸入至本研究之郵件分類系統,比較中文電子郵件分類效果及總風險成本,結果在使用C4.5決策樹法,加入詞頻及詞序百分比為輸入變數,可提升垃圾郵件被辨識成功的分類正確率;而使用機率類神經網路法,加入詞性特徵為輸入變數後可提升正常郵件被辨識成功的分類正確率;加入「灰色區域」分類為輸出變數時,明顯提升了垃圾郵件的分類精確率及檢出率,而且多數高達98.5% 以上,及明顯降低總風險成本。
英文摘要
In countries without established laws with regards to spam-mail blocking, spam filtering technologies are adopted to filter mails. Spam filtering technologies come in many forms and have staged a steady stream of improvement. However, none of the technology can completely filter out spam mails. The study suggests an effective method of spam filtering. Using PHP program to pick out the characteristics of spam mails, we perform data mining techniques such as C4.5 method and probability neural network (PNN) classifier to the E-mail classification. We also apply Chinese word segmentation system to calculate the frequency, rank, and characteristics of Chinese words. A “gray region” is also considered as our new output category. 
Our result shows that the C4.5 method together with the frequency and rank percentage of Chinese words promotes the accuracy of spam-mail filtering. Meanwhile, the PNN method with the percentages of Chinese word characteristics increases the accuracy of legitimate mail classification. Also, with the addition of our new “gray region” output category, the spam precision and recall rate both increase significantly, most of the classification rates goes over 98.5%, and the misclassification cost is also reduced.
第三語言摘要
論文目次
第壹章 緒論 	1
第一節 研究背景 	1
第二節 研究動機與目的 	2
1.2.1 研究動機 	2
1.2.2 研究目的 	2
第三節 研究流程與架構 	3
1.3.1 研究流程 	3
1.3.2 研究架構 	4
第貳章 文獻探討 	5
第一節 垃圾電子郵件相關問題的簡介 	5
第二節 過濾垃圾郵件相關技術及文獻研究 	7
2.2.1 過濾垃圾郵件相關技術研究 	7
2.2.2 過濾垃圾郵件相關軟體研究 	8
2.2.3 過濾垃圾郵件相關文獻研究 	8
第三節 中文斷詞系統相關技術研究 	11
第四節 資料採礦相關技術研究 	11
2.4.1 C4.5決策樹法簡介 	11
2.4.2 機率類神經網路法簡介 	13
第叄章 研究方法與步驟 	20
第一節 研究資料來源與範圍 	20
第二節 研究方法 	20
3.2.1 「灰色區域」分類 	20
3.2.2 資料採礦技術之分類方法 	21
3.2.3 分類結果之評估方法 	22
3.2.4 分類結果之比較方法 	23
第三節 資料處理 	24
3.3.1 擷取電子郵件特徵及本文 	24
3.3.2 分類過程資料處理 	27
3.3.3 分類結果評估準則及風險成本資料處理 	28
第四節 研究工具 	30
3.4.1 硬體工具 	30
3.4.2 軟體工具 	30
第肆章 實證分析 	31
第一節 發送行為特徵分類中文電子郵件之分析 	31
4.1.1 C4.5法分類中文電子郵件之結果分析 	31
4.1.2 機率類神經網路法分類中文電子郵件之結果分析 	32
第二節 加入中文斷詞分類中文電子郵件之分析 	34
4.2.1 C4.5法加入中文斷詞分類中文電子郵件之結果分析 	34
4.2.2 機率類神經網路法加入中文斷詞分類中文電子郵件之結果分析 	37
4.2.3 C4.5法與機率類神經網路法加入中文斷詞分類中文電子郵件之比較結果分析 	39
第三節 加入灰色區域分類中文電子郵件之分析 	40
4.3.1 C4.5法加入灰色區域分類中文電子郵件之結果分析 	40
4.3.2 機率類神經網路法加入灰色區域分類中文電子郵件之結果分析 	43
4.3.3 C4.5法與機率類神經網路法加入灰色區域分類中文電子郵件之比較結果分析 	45
第四節 分類中文電子郵件風險成本之分析 	46
4.4.1 C4.5法分類中文電子郵件之風險成本分析 	46
4.4.2機率類神經網路法分類中文電子郵件之風險成本分析 	49
4.4.3 C4.5法與機率類神經網路法分類中文電子郵件之風險成本分析 	51
第五節 實證分析彙整 	52
4.5.1僅以發送行為特徵為輸入變數 	52
4.5.2 加入中文斷詞輸入變數 	52
4.5.3 新增「灰色區域」分類之效果 	53
4.5.4風險成本分析 	54
第伍章 研究結論與建議 	56
第一節 結論 	56
第二節 建議 	57
參考文獻 	58
附錄	61

 
圖目錄
圖1-3-1 研究流程圖	3
圖1-3-2 研究架構圖	4
圖2-4-1 一維特徵向量在三個樣本下的機率密度函數圖	15
圖2-4-2 大平滑參數在三個樣本下的機率密度函數圖	16
圖2-4-3 小平滑參數在三個樣本下的機率密度函數圖	16
圖2-4-4 機率類神經網路架構圖	17
圖3-3-1 PHP函數Mailparse擷取中文電子郵件程式範例圖	24
圖3-3-2 PHP函數Mailparse擷取中文電子郵件結果圖	26
圖4-1-1 C4.5法分類中、外文之垃圾郵件精確率及正常郵件檢出率折線圖	32
圖4-1-2 C4.5法分類中、外文之垃圾郵件檢出率及正常郵件精確率折線圖	32
圖4-1-3 C4.5法分類中、外文之電子郵件整體準確率折線圖	32
圖4-1-4 機率類神經法分類中、外文之垃圾郵件精確率及正常郵件檢出率折線圖	33
圖4-1-5機率類神經法分類中、外文之垃圾郵件檢出率及正常郵件精確率折線圖	33
圖4-1-6機率類神經法分類中、外文之電子郵件整體準確率折線圖	34
圖4-2-1 C4.5法分類加入中文斷詞之垃圾郵件精確率折線圖	36
圖4-2-2 C4.5法分類加入中文斷詞之正常郵件檢出率折線圖	36
圖4-2-3 C4.5法分類加入中文斷詞之垃圾郵件檢出率折線圖	36
圖4-2-4 C4.5法分類加入中文斷詞之正常郵件精確率折線圖	36
圖4-2-5 C4.5法分類加入中文斷詞之電子郵件整體準確率折線圖	36
圖4-2-6 機率類神經法分類加入中文斷詞之垃圾郵件精確率折線圖	38
圖4-2-7 機率類神經法分類加入中文斷詞之正常郵件檢出率折線圖	38
圖4-2-8 機率類神經法分類加入中文斷詞之垃圾郵件檢出率折線圖	38
圖4-2-9 機率類神經法分類加入中文斷詞之正常郵件精確率折線圖	38
圖4-2-10 機率類神經法分類加入中文斷詞之電子郵件整體準確率折線圖	38
圖4-3-1 C4.5法分類加入灰色區域之垃圾郵件精確率折線圖	42
圖4-3-2 C4.5法分類加入灰色區域之正常郵件檢出率折線圖	42
圖4-3-3 C4.5法分類加入灰色區域之垃圾郵件檢出率折線圖	42
圖4-3-4 C4.5法分類加入灰色區域之正常郵件精確率折線圖	42
圖4-3-5 C4.5法分類加入灰色區域之電子郵件整體準確率折線圖	42
圖4-3-6 機率類神經法分類加入灰色區域之垃圾郵件精確率折線圖	44
圖4-3-7 機率類神經法分類加入灰色區域之正常郵件檢出率折線圖	44
圖4-3-8 機率類神經法分類加入灰色區域之垃圾郵件檢出率折線圖	44
圖4-3-9 機率類神經法分類加入灰色區域之正常郵件精確率折線圖	44
圖4-3-10 機率類神經法分類加入灰色區域之電子郵件整體準確率折線圖	44
圖4-4-1 C4.5法分類輸入變數為(1)之正常郵件不同重要性下總成本折線圖	48
圖4-4-2 C4.5法分類加入灰色區域輸入變數為(1)之正常郵件不同重要性下總成本折線圖	48
圖4-4-3 C4.5法分類輸入變數為(2)之正常郵件不同重要性下總成本折線圖	48
圖4-4-4 C4.5法分類加入灰色區域輸入變數為(2)之正常郵件不同重要性下總成本折線圖	48
圖4-4-5 C4.5法分類輸入變數為(3)之正常郵件不同重要性下總成本折線圖	48
圖4-4-6 C4.5法分類加入灰色區域輸入變數為(3)之正常郵件不同重要性下總成本折線圖	48
圖4-4-7 機率類神經法分類輸入變數為(1)之正常郵件不同重要性下總成本折線圖	50
圖4-4-8 機率類神經法分類加入灰色區域輸入變數為(1)之正常郵件不同重要性下總成本折線圖	50
圖4-4-9 機率類神經法分類輸入變數為(2)之正常郵件不同重要性下總成本折線圖	50
圖4-4-10 機率類神經法分類加入灰色區域輸入變數為(2)之正常郵件不同重要性下總成本折線圖	50
圖4-4-11 機率類神經法分類輸入變數為(3)之正常郵件不同重要性下總成本折線圖	50
圖4-4-12 機率類神經法分類加入灰色區域輸入變數為(3)之正常郵件不同重要性下總成本折線圖	50

 
表目錄
表2-1-1 2004及2006年全球垃圾郵件量國家排名表	6
表2-1-2 2006年美國SBL對濫發廣告信件國家及ISP業者排名表	6
表2-2-1 反制垃圾郵件的軟體整理表	8
表2-2-2 歷年過濾或分類垃圾郵件文獻整理表	9
表3-2-1 斷詞輸入變數之整理摘要表	22
表3-2-2 評估準則組合基準表	23
表3-2-3 研究分類結果之比較項目摘要表	24
表3-3-1 輸入元資料型態整理表	27
表3-3-2 輸出元資料型態整理表	27
表3-3-3 電子郵件分類結果表	28
表3-3-4 電子郵件分類結果評估準則計算表	29
表3-3-5 電子郵件分類結果風險成本矩陣表	29
表3-3-6 電子郵件分類錯誤之風險成本表	29
表4-1-1 C4.5法分類中、外文電子郵件之評估準則結果表	31
表4-1-2 機率類神經網路法分類中、外文電子郵件之評估準則結果表	33
表4-2-1 C4.5法與機率類神經網路法加入中文斷詞分類中文電子郵件比較表	39
表4-3-1 C4.5法與機率類神經網路法加入灰色區域分類中文電子郵件比較表	45
表4-4-1 正常郵件在不同重要性下分類錯誤之風險成本比表	47
表4-4-2 C4.5法與機率類神經網路法加入灰色區域分類中文電子郵件比較表	51
附錄表1 C4.5法加入中文斷詞分類中文電子郵件之評估準則結果表	61
附錄表2 機率類神經網路法加入中文斷詞分類中文電子郵件之評估準則結果表	62
附錄表3 C4.5法加入灰色區域分類中文電子郵件之評估準則結果表	63
附錄表4 機率類神經網路法加入灰色區域分類中文電子郵件之評估準則結果表	64
附錄表5 C4.5法分類之正常郵件在不同重要性下分類錯誤總風險成本表	65
附錄表6 機率類神經網路法分類之正常郵件在不同重要性下分類錯誤總風險成本表	66
附錄表7 C4.5法加入灰色區域分類「灰色」中文電子郵件之評估準則結果表	67
附錄表8 機率類神經網路法加入灰色區域分類「灰色」中文電子郵件之評估準則結果表	67
參考文獻
[1]D. F. Specht, Probabilistic Neural Networks (original contribution), Neural Networks, vol.3,no.1 Jan 1990,pp.109-118.
[2]J. Ross Quinlan. C4.5: Programs for Machine Learning. Morgan Kaufmann, San Mateo, CA, 1993.
[3]M.W. Craven and J.W. Shavlik. Extracting tree-structured representations of trained neural networks. Advances in Neural Information Processing Systems, 8:24–30, 1996.
[4]Cohen WW. Learning Rules that Classify E-Mail, In Proc. of the 1996 AAAI Spring Symposium on Machine Learning in Information Access,1996.
[5]Sahami M, Dumais S, Heckerman D and Horvite E. A Bayesian Approach to Filtering Junk E-Mail.In Learning for Text Categorization-Papers from the AAAI Workshop, pp.55-62, 1998.
[6]Drucker H, Wu D and Vapnik VN. Support Vector Machines for Spam. IEEE Trans.On Neural Networks,10(5):1048-1054,1999.
[7]Crawford E, Kay K and McCreath E. Automatic Induction of Rules for e-mail Classification. In Proc. of the Sixth Australasian Document Computing Symposium, Coffs Harbour, Australia,2001.
[8]Carreras X and Marquez L. Boosting Trees for Anti-Spam Email Filtering. In proc. of RANLP-01,4th International Conference on Recent Advances in Natural Language Processing, Tzigov Chark,BG,2001.
[9]Hird S. Technical Solutions for Controlling Spam. In Proc. of AUUG2002, Melboume,2002.
[10]Manco G, Masciari E, Ruffolo M and Tagarelli A. Toward an Adaptive Mail classifier. In Proc. Conference of the Italian Association of Artificial Intelligence(AIIA 2002),2002.
[11]Wang JH and Chien LF.,Toward Automated E-mail Filtering-An Investigation of Commercial and Academic Approaches. In Proc. of TANET,pp.687-692,2003.
[12]Zou L.,Lu Y.,Cui D.,Hu R.,Anti-spam filtering algorithm based on cost minimization.Journal of Huazhong University of Science and Technology (Natural Science Edition)Volume 33, Issue SUPPL., Pages 352-355, December 2005.
[13]Spamhaus,http://www.spamhaus.org,2006.
[14]SOPHOS,http://www.sophos.com/pressoffice/news/articles/2006/01/dir  tdozjan05.html,2006.
[15]彭載衍、張俊盛,中文詞彙歧義之研究-斷詞與詞性標示,國立清華大學資訊科學研究所碩士論文,1993。
[16]陳信希、李振昌,中文文本組織名之辨識,國立台灣大學資訊工程學研究所碩士論文,1994。
[17]劉如生、張士蓮,中文自動校正輔助系統,八十六年全國計算機會議論文集,1997,第二冊,頁 D14-D19。
[18]詞庫小組,《中央研究院平衡語料庫的內容與說明》修訂版,中央研究院資訊科學研究所,技術報告95-02/98-04,1998/08,pp.1-42。
[19]蔡志浩,MMSEG, http://technology.chtsai.org/,2000。
[20]彭文正,資料採礦-顧客關係管理暨電子行銷之應用,數博網資訊股份有限公司,2001。
[21]吳文峰,中文郵件分類器之設計及實作,私立逢甲大學資訊工程學系碩士論文,2002。
[22]CNET字彙寶典:http://taiwan.cnet.com/enterprise/glossary/term/0,2000062921,2000056156,00.htm,2003.
[23]CNET專題報導:ISP,你在幹什麼?http://taiwan.cnet.com/enterprise/features/0,2000062876,20085772-4,00.htm,2003.
[24]蔡瓊輝,使用倒傳遞類神經網路學習垃圾郵件行為的類型,私立樹德科技大學資訊管理系碩士論文,2004。
[25]鍾在豐,中文垃圾郵件之偵測及實作,私立中華大學資訊工程學系碩士論文,2004。
[26]李先育,中文郵件防治篩選之研究,私立中國文化大學資訊管理學系,2004。
[27]葉怡成,類神經網路模式應用與實作,儒林圖書公司,2004。
[28]吳宗和,機率類神經網路在垃圾郵件過濾之應用,私立淡江大學統計學系應用統計學碩士班論文,2005。
[29]蔡孟娟,決策樹法在垃圾郵件過濾之應用,私立淡江大學統計學系應用統計學碩士班論文,2005。
[30]劉鼎康,使用類神經網路進行垃圾郵件過濾之研究,私立中原大學資訊管理學系碩士學位論文,2005。
[31]李新林,無痛式垃圾郵件過濾系統計劃(Nopam),中正大學電算中心,2005。
論文全文使用權限
校內
校內紙本論文立即公開
同意電子論文全文授權校園內公開
校內電子論文立即公開
校外
同意授權
校外電子論文立即公開

如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信