§ 瀏覽學位論文書目資料
  
系統識別號 U0002-0407200712250800
DOI 10.6846/TKU.2007.00125
論文名稱(中文) 中文垃圾郵件客製化過濾系統之研究
論文名稱(英文) A Study of Customizable Chinese Spam E-mails Filtering System
第三語言論文名稱
校院名稱 淡江大學
系所名稱(中文) 統計學系碩士班
系所名稱(英文) Department of Statistics
外國學位學校名稱
外國學位學院名稱
外國學位研究所名稱
學年度 95
學期 2
出版年 96
研究生(中文) 吳泳慶
研究生(英文) Yung-Ching Wu
學號 694460253
學位類別 碩士
語言別 繁體中文
第二語言別
口試日期 2007-06-20
論文頁數 62頁
口試委員 指導教授 - 陳景祥(steve@stat.tku.edu.tw)
委員 - 歐士田(stou@mail.ntpu.edu.tw)
委員 - 李百靈(129354@mail.tku.edu.tw)
關鍵字(中) 客製化郵件
C4.5
機率類神經網路
TF-IDF
CKIP
關鍵字(英) Customizable
C4.5
decision tree
Probabilistic Neural Network (PNN)
TF-IDF
CKIP
第三語言關鍵字
學科別分類
中文摘要
收發電子郵件已經是現代人主要的通訊工具之ㄧ,而廣告電子郵件的大幅增加,使的我們的電子信箱經常在不知不覺中就充斥著一堆信件。過去對於廣告電子郵件則都歸類於垃圾郵件,然而在台灣ALS於2006年6月28日至7月28日間所做的調查中確有27.4%的受訪者表示曾經因為收到廣告郵件而確實有完成交易,可見在這些廣告電子信件中,有些對使用者言的確提供了所需的資訊及幫助,但有些則對使用者造成困擾及時間的浪費。因此,客製化郵件的分類則為本研究的主要議題。
    在本論文中使用機器學習法之C4.5決策樹法則及機率類神經法則為核心用以建制郵件分類系統,一般郵件分類所攫取的關鍵字通常都是以頻的高低做為選取條件,但有許多關鍵字的選取並不能真正代表該類別的郵件。所以本研究除了利用CKIP中文斷詞技術外,並計算TF-IDF的方法來攫取真正能表達每一種分類電子郵件的關鍵詞,再搭配14種發送特徵作為判斷郵件分類的準則。
    本研究將廣告信件分為九大類客製化郵件,並綜合評比整體準確率、正常郵件精確率、正常郵件檢出率、客製化郵件精確率和客製化郵件檢出率五種指標,其結果顯示本研究在個人日常郵件的測試上亦有不錯的結果。
英文摘要
E-mail has become a very popular mode of communication in the modern world; however, along with the rapid growth of E-mail advertising, recipients often receive commercial E-mails that that are unsolicited and sent in bulk. In the past years all the Unsolicited Commercial E-mail were automatically categorized as spam. A survey done by Taiwan ALS from June 28th to July 28th in 2006 shows that 27.4% of interviewee had bought products through commercial E-mails. Accordingly, some of the commercial E-mails really provide recipients with information and assistance, but the others are often annoying and wasting time; therefore, Customizable e-mail Classification is the main theme in this research.
    In the research C4.5 decision tree and Probabilistic Neural Network (PNN) of machine learning method are used mainly to establish E-mail classification system. Usually the key words which are seized to categorize E-mails are chosen by their appearance rate, but many key words can not really represent the E-mails of their categories. In this research the CKIP and the method of calculating TF-IDF are used in order to seize the key words which can actually represent every categorized E-mail, accompanying 14 different sending characteristics as the rules to categorize E-mails.
    This research categorized commercial E-mails into nine major Customizable E-mails categories and comprehensively evaluates five indexes: overall precision rate, (normal) E-mail accuracy rate, (normal) E-mail detectable rate, Customizable E-mail precision rate, and Customizable E-mail detectable rate.
第三語言摘要
論文目次
目    錄
第壹章 緒論.................................................1
   第一節	研究背景.........................................1
   第二節	研究動機與目的...................................2
      1.2.1. 研究動機.......................................2
      1.2.2. 研究目的.......................................3
   第三節	研究流程與架構...................................4
      1.3.1.研究流程........................................4
      1.3.2.研究架構........................................5
第貳章 文獻探討.............................................6
   第一節	垃圾電子郵件相關問題的簡介.......................6
   第二節	過濾垃圾郵件相關技術及文獻研究...................8
      2.2.1. 過濾垃圾郵件相關技術研究.......................8
      2.2.1.1. 主觀性過濾垃圾郵件技術.......................8
      2.2.1.2. 機器學習過濾垃圾郵件技術.....................9
      2.2.2. 過濾垃圾郵件相關文獻研究......................13
      2.2.2.1. C4.5決策樹法簡介............................13
      2.2.2.2. 機率類神經網路法簡介........................15
      2.2.2.3. TF-IDF 權重.................................18
   第三節	中文斷詞系統相關技術研究........................20
      2.3.1. 過去的中文斷詞方法............................20
      2.3.1.1  統計式斷詞法................................20
      2.3.1.1  法則式斷詞法................................21
      2.3.1.1  混合式斷詞法................................22
      2.3.2. CKIP中文斷詞系統..............................22
   第四節  基本的電子郵件系統架構..........................24
      2.4.1  電子郵件的基本架構及傳遞方式..................24
      2.4.2  電子郵件內涵訊息之分析........................24
第叄章 研究方法與步驟......................................27
   第一節	研究資料來源與範圍..............................27
   第二節	研究方法........................................28
      3.2.1. 九種客製化郵件分類............................28
      3.2.2. 資料採礦技術之分類方法........................28
      3.2.3. 分類結果之評估方法............................30
      3.2.4. 分類結果之比較方法............................30
   第三節	資料處理........................................32
      3.3.1. 攫取電子郵件特徵及本文........................32
      3.3.2. 分類過程資料處理..............................35
      3.3.3. 分類結果評估準則..............................36
   第四節	研究工具........................................37
      3.4.1. 硬體工具......................................37
      3.4.2. 軟體工具......................................37
第肆章 實證分析............................................38
   第一節	加入TF-IDF中文斷詞分類電子郵件分析..............38
      4.1.1. C4.5法加入TF-IDF中文斷詞分類中文電子郵件之結果分析.........................................................38
      4.1.2. 機率類神經網路法加入TF-IDF中文斷詞分類中文電子郵件之結果分析...............................................40
   第二節	加入客製化分類中文電子郵件之分析................42
      4.2.1. C4.5法加入客製化分類中文電子郵件之結果分析....42
      4.2.2. 機率類神經網路法加入客製化分類中文電子郵件之結果分析.......................................................43
   第三節	加入TF-ITF中文斷詞客製化分類中文電子郵件之分析	...........................................................45
      4.3.1. C4.5法加入TF-ITF中文斷詞客製化分類中文電子郵件之結果分析...................................................45
      4.3.2. 機率類神經網路法加入TF-ITF中文斷詞客製化分類之結果分析.....................................................46
   第四節	實證分析彙整....................................48
      4.4.1. 加入TF-IDF中文斷詞輸入變數之效果..............48
      4.4.2. 「客製化」分類之效果..........................49
      4.4.3. 加入TF-IDF中文斷詞&客製化郵件之效果..........51
第伍章 研究結論與建議......................................53
   第一節	結論............................................53
   第二節	建議............................................55
參  考  文  獻.............................................57
英文文獻...................................................57
中文文獻...................................................60
網路資源...................................................61

圖  目  錄
圖1-2-1、垃圾郵件分類.......................................2
圖1-3-1 研究流程............................................4
圖1-3-2 研究架構............................................5
圖 2-1-1 研調機構IDC:全球電子郵件使用預估圖.................6
圖 2-1-2 國內網擎垃圾郵件統計...............................7
圖2-4-4 機率類神經網路架構圖...............................18
圖3-3-1 PHP函數MAILPARSE攫取中文電子郵件程式範例圖.........32
圖3-3-2 PHP函數MAILPARSE攫取中文電子郵件結果圖.............34

表  目  錄
表2-4-1 郵件標頭的欄位資訊.................................25
表2-4-2 系統日誌記錄的欄位資訊說明.........................26
表3-2-1 斷詞輸入變數之整理摘要表...........................29
表3-2-2 研究分類結果之比較項目摘要表.......................31
表3-3-1 輸入變數資料型態整理表.............................34
表3-3-2 輸出變數資料型態整理表.............................34
表3-3-3 電子郵件分類結果表.................................35
表3-3-4 電子郵件分類結果評估準則計算表.....................36
表4-1-1 C4.5法加入TF-ITF中文斷詞分類中文電子郵件之評估準則結果表.......................................................39
表4-1-2 機率類神經網路法加入TF-ITF中文斷詞分類中文電子郵件之評估準則結果表.............................................40
表4-2-1 C4.5法加入客製化分類中文電子郵件之評估準則結果表...42
表4-2-2 機率類神經網路法加入客製化分類中文電子郵件之評估準則結果表.....................................................44
表4-3-1 C4.5法加入TF-ITF中文斷詞客製化分類中文電子郵件之評估準則結果表.................................................45
表4-3-2 機率類神經網路法加入TF-ITF中文斷詞客製化分類中文電子郵件之評估準則結果表.......................................46
參考文獻
英文文獻
1.D. F. Specht, Probabilistic Neural Networks (original contribution), Neural Networks, vol.3,no.1 Jan 1990,pp.109-118.
2.Freed, N. and Borenstein, N. (1996), “Multipurpose Internet MailExtensions (MIME) Part One: Format of Internet Message Bodies ,”RFC-2045, IETF
3.Freed, N. and Borenstein, N. (1996), “Multipurpose Internet MailExtensions (MIME) Part Two: Media Types ,“ RFC-2046, IETF.
4.Freed, N., Klensin, J. and PostelFreed, J. (1996), “Multipurpose Internet Mail Extensions (MIME) Part Four: Registration Procedures ,“ RFC-2048, IETF.
5.Freed, N. and Borenstein, N. (1996), “Multipurpose Internet MailExtensions (MIME) Part Five: Conformance Criteria and Examples ,“ RFC-2049, IETF.
6.H. Drucker, D. Wu, and V. N. Vapnik, "Support Vector Machines for Spam Categorization", IEEE Transactions on Neural Networks, Vol. 20, No. 5, pp. 1048-1054, Sep. 1999[J]
7.Hoffman, P. (2002), “SMTP Service Extension for Secure SMTP overTransport Layer Security,” RFC 3207, IETF.
8.I. Androutsopoulos, J. Koutsias, K.V. Chandrinos and C.D. Spyropoulos, “An Experimental Comparison of Naive Bayesian and Keyword-Based Anti-Spam Filtering with Encrypted Personal E-mail Messages”, in Proceedings of the 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR 2000), Athens, Greece, pp. 160-167, 2000[C]
9.I. Androutsopoulos, J. Koutsias, K.V. Chandrinos, G. Paliouras and C.D. Spyropoulos, "An Evaluation of Naive Bayesian Anti-Spam Filtering," in Proc. of the Workshop on Machine Learning in the New Information Age, 11th European Conference on Machine Learning (ECML 2000), pp. 9-17, May 2000[C]
10.J. L. Neto, A. Santos, C. Kaestner, and A. Freitas, “Document Clustering and Text Summarization,” Proceedings of the Fourth International Conference Practical Applications of Knowledge Discovery and Data Mining (PADD-2000), pp. 41-55,London, January 2000
11.J. Rocchio, “Relevance feedback in information retrieval”, in the SMART Retrival System: Experments in Automatic Document Processing, pp. 313-323, Prentice Hall Inc., 1971[M]
12.J. Ross Quinlan. C4.5: Programs for Machine Learning. Morgan Kaufmann, San Mateo, CA, 1993.
13.K. Schneider, "A Comparison of Event Models for Naive Bayes Anti-Spam E-Mail Filtering", in Proc. 10th Conference of the European Chapter of the Association for Computational Linguistics (EACL 2003), Budapest, Hungary, pp. 307-314, Apr. 2003[C]
14.Katirai, H. (1999), “Filtering junk e-mail: A performance comparisonbetween genetic programming and naive bayes,” Technical report ,University of Waterloo.
15.M. Sahami, S. Dumais, D. Heckerman and E. Horvitz, “A Bayesian approach to filtering junk e-mail”, in Proc. of AAAI Workshop on Learning for Text Categorization, pp. 55-62, 1998[C]
16.Moore, K. (1996), “MIME (Multipurpose Internet Mail Extensions)Part Three: Message Header Extensions for Non-ASCIIText ,“ RFC-2047, IETF.
17.Payne, T.R. and Edward, P. (1997), “Interface Agents that Learn: AnInvestigation of Learning Issues in a Mail Agent Interface,” AppliedArtificial Intelligence, pp. 1-32.
18.Postel, J. (1982), “Simple Mail Transfer Protocol,” RFC-821, IETF.
19.Sahami M, Dumais S, Heckerman D and Horvite E. A Bayesian Approach to Filtering Junk E-Mail.In Learning for Text Categorization-Papers from the AAAI Workshop, pages 55~62, Madison Wisconsin. AAAI Press.Technical Report WS, 1998.5.
20.T. Joachims, A Probabilistic Analysis of the Rocchio Algrithm with TFIDF forText Careagorization, Technical Report of CMU-CS-96-118, Department of Computer Science, Carnegie Mellon University, Pennsylvania, USA, March1996.
21.W. Cohen,“Fast effective rule induction”, in Machine Learning: Proceedings of the Twelfth International Conference, Lake Taho, California, Mongan Kanfmann, pp.115-123, 1995[C] 
22.W. Cohen, “Learning rules that classify email”, in Proceedings of the AAAI spring symposium of Machine Learning in Information Access, Palo Alto, California, pp. 18-25. 1996[C]
23.X. Carreras and L. Marquez, "Boosting Trees for Anti-Spam Email Filtering", in Proceedings of Euro Conference Recent Advances in NLP (RANLP-2001), pp. 58-64, Sep. 2001[C]
24.Y. Diao, H. L., and D. Wu, A Comparative Study of Classification Based Personal E-mail Filtering. Pacific-Asia Knowledge Discovery and DataMining 2000.

中文文獻
1.詞庫小組,《中央研究院平衡語料庫的內容與說明》修訂版,中央研究院資訊科學研究所,技術報告95-02/98-04,1998/08,pp.1-42。
2.吳文峰,「中文郵件分類器之設計及實作」,碩士論文,逢甲大學資訊工程所,2001。
3.吳宗和,「機率類神經網路在垃圾郵件過濾之應用」,碩士論文,淡江大學應用統計學系(2005)
4.陳稼興、謝佳倫、許芳誠,「以遺傳演算法為基礎的中文斷詞研究」,資訊管理研究,第二卷第二期,2000年07月,pp.27-44。
5.彭文正,資料採礦-顧客關係管理暨電子行銷之應用,數博網資訊股份有限公司,2001。
6.黃維,「以類免疫系統法建置垃圾郵件過濾系統之研究」,碩士論文,中原大學資訊管理學系(2005)
7.葉采羚,「垃圾郵件過濾:資料採礦與中文斷詞技術之應用」,碩士論文,淡江大學應用統計學系(2006)
8.劉鼎康,「使用類神經網路進行垃圾郵件過濾之研究」,碩士論文,中原大學資訊管理學系(2005)
9.潘文峰,「基於內容的垃圾郵件過濾研究」,碩士論文,中國科學院計算技術研究所(2004)
10.蔡孟娟,「決策樹法在垃圾郵件過濾之應用」,碩士論文,淡江大學應用統計學系(2005)
11.蔡瓊輝,「使用到傳遞神經網路學習垃圾郵件行為類型」,碩士論文,樹德科技大學資訊管理系(2004)
12.蕭文峰,「具分群機制之遞增式最鄰近分類學習法-- 垃圾郵件過濾之應用」,碩士論文,國立屏東商業技術學院資訊管理系(所)(2005)
13.蘇士能,「具個人化中文垃圾郵件之過濾設計與實作」,碩士論文,國立東華大學資訊工程學系(2005)

網路資源
1.E世代公民email使用意見調查報告(2006.08.29),
   http://www.als.org.tw/upload/file/d_file/2006E_S.pdf
2.IETF RFC Page,
   http://www.ietf.org/rfc.html
3.M. DeSouza, J. Fitzgerald, C. Kemp and G. Truong, “A Decision Tree based Spam Filtering Agent”, (2001)
4.T. Nicholas, “Using AdaBoost and Decision Stumps to Identify Spam E-mail”, Stanford University Course Project (Spring 2002/2003) Report,
   http: //nlp.stanford.edu/ courses/cs224n/ 2003/fp/
5.反垃圾郵件市場的概況與技術解析http://www.openfind.com/taiwan/download/report/anti_spam_01_20051118.pdf
6.國立金門技術學院(垃圾信的定義)
http://www2.kmit.edu.tw/org/cc/%E5%9E%83%E5%9C%BE%E9%83%B5%E4%BB%B6%E5%8F%8A%E5%BB%A3%E5%91%8A%E4%BF%A1%E4%BB%B6%E8%AA%AA%E6%98%8E.htm
7.mail2000電子信箱垃圾郵件統計,網擎資訊
   http://www.mail2000.com.tw/
8.垃圾郵件處理常見問答,網擎資訊http://www.openfind.com.tw/act/mail2000/security/faq.htm
9.維基百科http://zh.wikipedia.org/w/index.php?title=%E5%9E%83%E5%9C%BE%E9%82%AE%E4%BB%B6&variant=zh-tw
10.蔡志浩,MMSEG,(2000)
   http://technology.chtsai.org
論文全文使用權限
校內
紙本論文於授權書繳交後1年公開
同意電子論文全文授權校園內公開
校內電子論文於授權書繳交後1年公開
校外
同意授權
校外電子論文於授權書繳交後1年公開

如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信