§ 瀏覽學位論文書目資料
  
系統識別號 U0002-2401201623563600
DOI 10.6846/TKU.2016.00769
論文名稱(中文) 垃圾郵件分類及特徵選擇組合之分析研究
論文名稱(英文) Analysis of combinations of the spam classification and feature selection
第三語言論文名稱
校院名稱 淡江大學
系所名稱(中文) 資訊管理學系碩士班
系所名稱(英文) Department of Information Management
外國學位學校名稱
外國學位學院名稱
外國學位研究所名稱
學年度 104
學期 1
出版年 105
研究生(中文) 鄭奕騰
研究生(英文) Yi-Teng Cheng
學號 699630959
學位類別 碩士
語言別 繁體中文
第二語言別
口試日期 2016-01-09
論文頁數 63頁
口試委員 指導教授 - 周清江
委員 - 李鴻璋
委員 - 陸承志
關鍵字(中) 郵件分類
概念漂移
特徵選擇
組合分析
關鍵字(英) e-mail categorization
concept drift
feature selection
combination analysis
第三語言關鍵字
學科別分類
中文摘要
垃圾郵件氾濫的問題主要是透過垃圾郵件分類過濾垃圾郵件,先依照相關指標選定特徵字集,再依照某個分類演算法進行分類。然而此問題一直沒有獲得徹底解決,需要進一步分析垃圾郵件分類相關特徵字選取指標及分類演算法之特性,以求更佳分類效果。本研究採用TFIDF和IG這兩種特徵字選取指標,並採用權重貝氏和支持向量機這兩種分類演算法,對這些特徵選取指標和分類演算法以各自獨立、交集和聯集的方式,進行組合分析,本研究將透過實驗來比較分析這16種組合在概念漂移情況下之分類效能,並就各組實驗之最佳分類組合,分析在不同時間點之效能及整體穩定度。
英文摘要
The spam-email overflow problems are mainly solved by filtering spam-emails through spam email classifications.   They first select a set of feature words according to their indicative figures, and then apply a classification algorithm to decide whether an incoming email is a spam. However, the problem has not been solved completely. There is a need to further analyze related characteristics of the feature words selection indicatives and classification algorithms to achieve better classification effectiveness.  We use two feature words selection indicatives: TFIDF (Term Frequency–Inverse Document Frequency) and IG (Information Gain) and two classification algorithms: Weighted Naive Bayesian and SVM (Support Vector Machine) as representatives in the analysis. By using them independently, under the intersection operator, or under the union operator, through experiments in the context of concept drift, we compare the classification effectiveness of these 16 combinations of feature selection indicatives and classification algorithms.  Additionally, for each experiment we analyse the classification effectiveness of the best combination different accumulated number of e-mails. Stability of the combination is also discussed.
第三語言摘要
論文目次
第1章 緒論 1
1.1 研究背景與動機 1
1.2 研究目的 2
1.3 論文架構 5
第2章 文獻探討 6
2.1 特徵字選取指標 6
2.2 分類演算法 7
2.3 概念漂移 10
第3章 系統架構與設計 13
3.1 相關演算法之選擇 13
3.2 實驗流程 15
3.3 字詞選取 21
3.4 分類演算法 23
第4章 實驗 25
4.1 郵件資料集與實驗說明 25
4.1.1 實驗環境與郵件資料集 25
4.1.2 實驗說明 26
4.2 實驗探討與分析 31
4.2.1 實驗一----IG搭配4種分類演算法 31
4.2.2 實驗二----TFIDF搭配4種分類演算法 35
4.2.3 實驗三----IG∩TFIDF搭配4種分類演算法 39
4.2.4 實驗四----IG∪TFIDF搭配4種分類演算法 43
4.2.5 實驗五----4種特徵字選取指標搭配權重貝氏分類演算法 46
4.2.6 實驗六----4種特徵字選取指標搭配SVM分類演算法 49
4.2.7 實驗七----4種特徵字選取指標搭配Bayes∩SVM 52
4.2.8 實驗八----4種特徵字選取指標搭配Bayes∪SVM 54
4-3 實驗結論 57
第5章 結論及未來展望 59
參考文獻 61

圖目錄
圖 1:SVM運作原理 9
圖 2:KNN運作原理 10
圖 3:訓練階段流程 15
圖 4:單一特徵字選取指標建立字詞庫 18
圖 5:單一特徵字選取指標關鍵字集產生方法 19
圖 6:郵件資料集之向量矩陣 20
圖 7:分類階段流程 20
圖 8:IG在四種分類演算法的分類正確率 33
圖 9:IG在四種分類演算法的垃圾郵件召回率 34
圖 10:IG在四種分類演算法的垃圾郵件F-measure值 34
圖 11:得到最佳分類效果之特徵字字數在四種分類演算法的不同累積郵件數之F-measure值 35
圖 12:TFIDF在四種分類演算法的分類正確率 37
圖 13:TFIDF在四種分類演算法的垃圾郵件召回率	 37
圖 14:TFIDF在四種分類演算法的垃圾郵件F-measure值 38
圖 15:得到最佳分類效果之特徵字字數在四種分類演算法的不同累積郵件數之F-measure值 38
圖 16:IG∩TFIDF在四種分類演算法的分類正確率 41
圖 17:IG∩TFIDF在四種分類演算法的垃圾郵件召回率 41
圖 18:IG∩TFIDF在四種分類演算法的垃圾郵件F-measure值 42
圖 19:得到最佳分類效果之特徵字字數在四種分類演算法的不同累積郵件數之F-measure值 42
圖 20:IG∪TFIDF在四種分類演算法的分類正確率 44
圖 21:IG∪TFIDF在四種分類演算法的垃圾郵件召回率 45
圖 22:IG∪TFIDF在四種分類演算法的垃圾郵件F-measure值 45
圖 23:得到最佳分類效果之特徵字字數在四種分類演算法的不同累積郵件數之F-measure值 46
圖 24:四種特徵字選取指標在權重貝氏分類演算法的分類正確率 48
圖 25:四種特徵字選取指標在權重貝氏分類演算法的垃圾郵件召回率 48
圖 26:四種特徵字選取指標在權重貝氏分類演算法的F-measure值 49
圖 27:四種特徵字選取指標在SVM分類演算法的分類正確率 50
圖 28:四種特徵字選取指標在SVM分類演算法的垃圾郵件召回率 51
圖 29:四種特徵字選取指標在SVM分類演算法的F-measure值 51
圖 30:四種特徵字選取指標在兩種Bayes∩SVM的分類正確率 53
圖 31:四種特徵字選取指標在Bayes∩SVM的垃圾郵件召回率 53
圖 32:四種特徵字選取指標在Bayes∩SVM的F-measure值 54
圖 33:四種特徵字選取指標在Bayes∪SVM的分類正確率 55
圖 34:四種特徵字選取指標在Bayes∪SVM的垃圾郵件召回率 56
圖 35:四種特徵字選取指標在Bayes∪SVM的F-measure值 56

表目錄
表 1:特徵字組合初始時之特徵字字數 28
表 2:特徵字組合最終時之特徵字字數 29
表 3:特徵字選取指標和分類演算法的組合 30
表 4:四種分類組合的最佳值、最差值、變化度 35
表 5:四種分類組合的最佳值、最差值、變化度 39
表 6:四種分類組合的最佳值、最差值、變化度 43
表 7:四種分類組合的最佳值、最差值、變化度 46
參考文獻
[1] 陳昱辰,一個處理概念漂移的垃圾郵件分類演算法,淡江大學資訊管理學系碩士論文,2009
[2] Aha, D. W., Kibler, D., & Albert, M. K. (1991). Instance-based learning algorithms. machine learning, Vol. 6, No. 1, 37-66
[3] Androutsopoulos, I., Paliouras, G., Karkaletsis, V., Sakkis, G., Spyropoulos, C. D., & Stamatopoulos, P. (2000). Learning to filter spam E-mail: a comparison of a naive bayesian and a memory-based approach. Proceedings of the 4th European Conference on Principles and Practice of Knowledge Discovery in Databases, 1-13
[4] Delany, S. J., Cunningham, P., Tsymbal, A., & Coyle, L. (2005). A case-based technique for tacking concept drift in spam filtering. Knowledge-Based Systems, 187-195
[5] Delany, S. J., Cunningham, P., & Tsymbal, A. (2005). A comparison of ensemble and case-based maintenance techniques for handling concept drift in spam filtering. Technical Report TCD-CS-2005-19, Trinity College Dublin
[6] Drucker, H., Wu, D., & Vapnik, V. N. (1999).  Support vector machines for spam categorization. IEEE Transactions on Neural Networks, Vol. 10, No. 5, 1048-1054.
[7] Fdez-Riverola, F., Iglesias, E. L., Díaz, F., Méndez J. R., & Corchado, J. M. (2007). Applying lazy learning algorithms to tackle concept drift in spam filtering. Expert Systems with Applications, Vol.33, No.1, 36-48
[8] Hsiao, W. F., & Chang, T. M. (2008). An incremental cluster-based approach to spam filtering. Expert Systems with Applications, Vol.34, No.3, 1599-1608
[9] Karthika, R. D., Visalakshi, P., (2015).  A hybrid ACO based feature selection method for email spam classification. WSEAS TRANSACTIONS on COMPUTERS, 171-177
[10] Karthika, R. D., Visalakshi, P., (2014). Latent semantic indexing based SVM model for email spam classification. Scientific & Industrial research, Vol.74, 437-442
[11] Katakis, I., Tsoumakas, G., & Vlahavas, I. (2005). On the utility of incremental feature selection for the classification of textual data streams. In 10th Panhellenic Conference on Informatics, Springer-Verlag, 338-348
[12] Korde, V., Mahender ,C. M., (2012). Text classification and classifiers: a survey, International Journal of Artificial Intelligence & Applications (IJAIA), Vol.3, No.2,85-99
[13] Koychev, I. (2000). Gradual forgetting for adaptation to concept drift. Proceedings of ECAI 2000 Workshop Current Issues in Spatio-Temporal Reasoning, 101-106
[14] Kuncheva, L. I. (2004). Classifier ensembles for changing environments. Lecture Notes in Computer Science (LNCS), Vol.3077, 1-15
[15] Nadeem, A. S., Huan, L., Kah, K. S., (1999) Handling concept drifts in incremental learning with support vector machines. ACM , 317-321
[16] Porter, M. F. (1980). An algorithm for suffix stripping. Program (Automated Library and Information Systems), 130-137
[17] Sahami, M., Dumais, S., Heckerman, D., & Horvitz, E. (1998). A bayesian approach to filtering junk e-mail. Proceedings of the AAAI-98 Workshop on Learning for Text Categorization, 55-62
[18] Sculley , D., Wachman ,G, M. (2007). Relaxed online SVMs for spam filtering. ACM SIGIR’07, July 23-27,415-422
[19] Tsymbal, A. (2004). The problem of concept drift: definitions and related work. Technical Report TCD-CS-2004-15, Department of Computer Science, Trinity College Dublin, Ireland
[20] Widmer, G., & Kubat, M. (1996). Learning in the presence of concept drift and hidden contexts. machine learning, Vol. 23, No. 1, 69-101
[21] Xie, C., Ding, L., and Du, X. (2009). Anti-spam filters based on support vector machines .ISICA 2009, LNCS 5821, 349–357
[22] Yang, Y., & Pedersen, J. O. (1997). A comparative study on feature selection in text categorization. In Proceedings of ICML-97 14thconference on machine learning, 412-420
論文全文使用權限
校內
校內紙本論文立即公開
同意電子論文全文授權校園內公開
校內電子論文立即公開
校外
同意授權
校外電子論文立即公開

如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信