系統識別號 | U0002-3006200514171700 |
---|---|
DOI | 10.6846/TKU.2005.00772 |
論文名稱(中文) | 機率類神經網路在垃圾郵件過濾之應用 |
論文名稱(英文) | Application of Probabilistic Neural Network Methods to Spam Filtering |
第三語言論文名稱 | |
校院名稱 | 淡江大學 |
系所名稱(中文) | 統計學系碩士班 |
系所名稱(英文) | Department of Statistics |
外國學位學校名稱 | |
外國學位學院名稱 | |
外國學位研究所名稱 | |
學年度 | 93 |
學期 | 2 |
出版年 | 94 |
研究生(中文) | 吳宗和 |
研究生(英文) | Tsung-Ho Wu |
學號 | 692460073 |
學位類別 | 碩士 |
語言別 | 繁體中文 |
第二語言別 | |
口試日期 | 2005-06-13 |
論文頁數 | 80頁 |
口試委員 |
指導教授
-
陳景祥
委員 - 歐士田 委員 - 吳碩傑 |
關鍵字(中) |
機率類神經網路 貝式分類器 CART 垃圾郵件 |
關鍵字(英) |
Data mining Decision Tree Neural Network Bayes Classifier Spam |
第三語言關鍵字 | |
學科別分類 | |
中文摘要 |
本研究以資料探勘常見理論為基礎,建構出防堵垃圾郵件機制。使用PHP程式語言擷取電子郵件特徵,並透過機率類神經網路演算法、貝式分類器與C&RT (Classification and Regression Tree)對電子郵件分類,比較其分類模式之優劣。若考慮兩種可能狀況之下,發現設定平滑參數為0.01、0.1之機率類神經網路表現最好,其次貝式分類器與C&RT。也透過統計方法的變異數分析與Tukey真實顯著差異多重比較客觀分析其分類模式之優劣,發現與之前所做之結論一致。此外也使用風險分析,提供使用者在電子郵件分類不同的概念,評估分類模式是否符合使用者的需求。最後加入關鍵字搜尋,針對郵件主旨及寄件者名稱,建構黑白名單過濾,再配合機率類神經網路對電子郵件分類,看其評估準則是否提升。 |
英文摘要 |
The purpose of the study is based on the common theory of data mining that build up the mechanism of anti-spam. Using PHP program to pick the character of spam mail, it performs probability neural network (PNN), classification and regression tree (C&RT) and naïve bayes classifier to the E-mail classification, and compares three kinds of classified patterns. If considers under two kind of possibilities conditions, the probability neural network of smooth parameter 0.01, 0.1 is best, next C&RT and naïve bayes classifier. Using the statistical method of one way ANOVA and Tukey Multiple comparison test, 0bjectly it fits and unfits qualities of classified pattern that is consistent with the front conclusion. In addition, it uses cost of risk that provides the user in the email classification different concept and evaluates the three of classified patterns whether conforms to user's demand. Finally, it joint the method of keyword search that aim at the field of subject and from to construct white-list and black-list, then to use PNN to E-mail classification whether increasing accuracy rate. |
第三語言摘要 | |
論文目次 |
目錄 第一章 導論 1 1.1 研究動機與目的 1 1.2 研究流程與論文架構 3 第二章 文獻探討與相關研究 5 2.1 垃圾郵件簡介 5 2.1.1 垃圾郵件源由 5 2.1.2 垃圾郵件的過濾技術 6 2.1.3 其他相關研究探討 8 2.2 類神經網路簡介 9 2.3 電子郵件系統架構 13 2.3.1 電子郵件歷史 13 2.3.2 電子郵件系統組成 14 2.3.3 電子郵件架構 17 2.3.4 MIME 18 第三章 模式架構與理論基礎 22 3.1 電子郵件特徵之擷取 22 3.2 機率類神經網路 26 3.2.1 模式簡介 26 3.2.2 理論基礎 27 3.2.3 網路架構 30 3.2.4 網路演算法 33 3.2.5 手算實例 34 3.3 貝氏分類器演算法 36 3.4 C&RT演算法 37 3.5 PHP: Hypertext Preprocessor 39 3.5.1 Mailparse郵件特徵剖析 39 第四章 實作與評估 43 4.1 資料來源與測試過程 43 4.2 分類模式之執行時間 44 4.3 分類模式之評估準則介紹 44 4.4 機率類神經網路之下設定不同平滑參數之比較 49 4.5 機率類神經、貝式分類器、C&RT之分類效果 52 4.6 檢定分析 55 4.7 風險成本分析 59 4.8 增加關鍵字搜尋 63 第五章 結論與未來展望 56 5.1 結論 68 5.2 未來展望 70 參考文獻 71 附錄: 附錄一、不同平滑參數下之機率類神經網路 74 附錄二、三種分類模式之分類效果 76 附錄三、三種模式之風險分析 77 附錄四、關鍵字搜尋與不同平滑參數下之機率類神經網路 79 圖表目錄: 【圖1-1】研究流程 4 【圖2-1】類神經網路架構 11 【圖2-2】電子郵件傳遞過程 15 【圖2-3】電子郵件表頭結構 20 【圖3-1】機率類神經網路模型 28 【圖3-2】一維樣本空間 29 【圖3-3】大平滑參數下之機率密度函數 31 【圖3-4】小平滑參數下之機率密度函數 32 【圖3-5】Mailparse程式範例 40 【圖3-6】Mailparse程式範例結果 41 【圖4-1】不同平滑參數下之準確率 49 【圖4-2】不同平滑參數下之評估準則 50 【圖4-3】三種模式之準確率 46 【圖4-4】三種模式之評估準則 47 【圖4-5】三種模式之風險成本 61 【圖4-6】關鍵字搜尋之準確率 64 【圖4-7】關鍵字搜尋之評估準則 54 【表2-1】防堵垃圾郵件之研究 8 【表2-2】郵務系統之各種代理程式 15 【表3-1】電子郵件特徵 25 【表4-1】分類模式之執行時間 44 【表4-2】分類列聯表 45 【表4-3】評估準則 46 【表4-4】軟硬體測試環境 46 【表4-5】評估準則之範例說明 47 【表4-6】兩種不同情形下之評估準則 48 【表4-7】成本矩陣 59 【表4-8】假設狀況之風險成本比 60 【表4-9】黑白名單之關鍵字詞 63 |
參考文獻 |
參考文獻 【中文文獻】 1. Dent KD,林長毅譯,Postfix技術手冊,美商歐萊禮股份有限公司台灣分公司,2004。 2. 毛慶禎,寫信與收信, http://www.lins.fju.edu.tw/~mao/internet/firstmail.htm。 3. 吳文峰,中文郵件分類器之設計及實作,私立逢甲大學資訊工程學系碩士論文,2002。 4. 李啟鑫,資料探勘與統計技術的自由軟體整合介面,私立淡江大學統計學系應用統計研究所碩士論文,2004。 5. 馬駿,當前反垃圾郵件技術縱覽分析,2004 http://forum.icst.org.tw/phpBB2/viewtopic.php?p=13711& 6. 風端,反垃圾郵件:徘徊在互聯網精神的邊緣, http://past.people.com.cn/BIG5/it/48/299/20020315/688044.html 7. 葉怡成,類神經網路模式應用與實作,儒林圖書公司,2004。 8. 蔡瓊輝,使用倒傳遞類神經網路學習垃圾郵件行為的類型,私立樹德科技大學資訊管理系碩士論文,2004。 9. 鍾在豐,中文垃圾郵件之偵測及實作,私立中華大學資訊工程學系碩士論文,2004。 10. 網路資訊,挑戰Anti-spam 的技術極限,2004 http://www.networkmagazine.com.tw/ 11. 鍾在豐,中文垃圾郵件之偵測及實作,私立中華大學資訊工程學系碩士論文,2004。 【英文文獻】 12. A Plan for Spam. http://www.paulgraham.com/spam.html. 13. Bogofilter. http://bogofilter.sourceforge.net/. 14. Breiman, Friedman, Olshen, and Stone, Classification and Regression Trees. Wadsworth. 1984 15. Brian Ripley, Recursive partitioning and regression trees, http://mayoresearch.mayo.edu/mayo/research/biostat/splusfunctions.cfm 16. Cacoullos, Estimation of a multivariate density, Ann. Inst. Stat. Math. 18, 1966 pp. 179–189. 17. Chen D, Chen T and Ming H. Spam Email Filter-Using Naïve Bayesian, Decision Tree, Neural Network and AdaBoost. http://www.cs.iastate.edu/~tongjie/spamfilter/paper.pdf. 18. Christian Borgelt, A Naïve Bayes Classifier Plug-In for DataEngine. Proc. 3rd Data Analysis Symposium, 87-90.MIT GmbH, Aachen, Germany 1999. http://fuzzy.cs.uni-magdeburg.de/~borgelt/bayes.html 19. D. F. Specht, Probabilistic Neural Networks (original contribution), Neural Networks, vol. 3, no.1 Jan 1990, pp. 109-118 20. D. F. Specht, Probabilistic neural network and the polynomial Adaline as complementary techniques for classification, IEEE Trans. On Neural Network, 1, 1990 pp 111-121. 21. D. F. Specht et al., Generalization Accuracy Of Probabilistic Neural Networks Compared With Back-Propagation Networks, IEEE, 1991 22. E. Parzen, On Estimation Of A Probability Density Function And Mode, ANN Math Stat , 1962 vol.33, pp. 1065-1076 23. IETF, http://www.ietf.org/ 24. Jiawei Han and Micheline Kamber, Data Mining: Concepts and Techniques, 2000. 25. M. T. Musavi et al, Improving The Performance Of Probabilistic Neural Networks, IEEE, 1991. 26. PHP, http://www.php.net/ 27. rpart, http://www.r-project.org / 28. RFC 821: Simple Mail Transfer Protocol. 29. RFC 822: Standard for the Format of APRA Internet Text Messages. 30. RFC 1939: Post Office Protocol (POP) - Version 3 31. RFC2045: MIME Part One: Format of Internet Message Bodies. 32. RFC2046: MIME Part Two: Media Types. 33. RFC2047: MIME Part Three: Message Header Extensions for Non-ASCII Text. 34. RFC 2049: MIME Part Five: Conformance Criteria and Examples. 35. RFC 2060: Internet Message Access Protocol (IMAP) - Version 4 Rev 1 36. Rich Drewes, An artificial neural network spam classifier, 2002. 37. Spam Bouncer. http://www.spambouncer.com/. 38. SpamKiller Guide. http://www.mcafee.com/tw/. 39. Spam Prevention Solution. http://www.trendmicro.com/. 40. Thuraisingham, A primer for understanding and apply data mining, IT Professional, Vol.2, NO.1, 2000, pp28-31. 41. Wang JH and Chien LF. Toward Automated E-mail Filtering-An Investigation of Commercial and Academic Approaches. In Proc. of TANET, pp. 687-692, 2003. 42. Wood P. A Spammer in the Works. MessageLabs Ltd., 2004. |
論文全文使用權限 |
如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信