淡江大學覺生紀念圖書館 (TKU Library)
進階搜尋


下載電子全文限經由淡江IP使用) 
系統識別號 U0002-2607202012332600
中文論文名稱 異狀資料偵測模型推薦
英文論文名稱 A Model Recommendation System for Anomaly Detection Algorithms
校院名稱 淡江大學
系所名稱(中) 大數據分析與商業智慧碩士學位學程
系所名稱(英) Master's Program In Big Data Analytics and Business Intelligence
學年度 108
學期 2
出版年 109
研究生中文姓名 江泓德
研究生英文姓名 Hung-Te Chiang
學號 607890042
學位類別 碩士
語文別 中文
口試日期 2020-07-01
論文頁數 46頁
口試委員 指導教授-陳景祥
共同指導教授-李百靈
委員-何宗武
委員-鄧文舜
中文關鍵字 資料複雜度  機器學習  CRIMCOORD轉換  典型相關分析  精確召回曲線的曲線下面積 
英文關鍵字 Data Complexity  Machine Learning  CRIMCOORD Transformation  Canonical Correlation Analysis  AUPRC 
學科別分類
中文摘要 本研究使用9種資料複雜度指標針對25個含有異狀資料的二元不平衡資料集個別進行複雜度的評估。另外,考量到本研究所使用的資料複雜度指標僅適用於數值變數,因此先行將含有類別變數的資料集進行CRIMCOORD轉換。同時,本研究因著重於資料的本質特性,故在不考慮重抽樣(resampling)的技術下,比較五種分類技術的表現,包含k-最鄰近演算法、單類支持向量機、隨機森林、極限梯度提升法、類神經網路,並透過典型相關分析,探討各資料複雜度指標與分類技術之關聯,進而達到推薦。本研究實例結果顯示Fisher’s最大判別比(F1)與最鄰近點之組內與組間的平均距離比率(N2)該兩項資料複雜度指標為首要影響分類技術推薦順序之因素。

本研究評估模型表現優異之準則為精確召回曲線的曲線下面積(Area Under the PR Curve, AUPRC),而非一般常見的接收者操作特徵曲線的曲線下面積(Area Under the Curve, AUC),以避免對於模型表現有高估之情形。本研究實例結果顯示當資料本身整體複雜度較高時,本研究建議優先使用樹狀結構的分類技術,如極限梯度提升法或隨機森林,其次則是類神經網路,較不建議使用單類支持向量機或k-最鄰近演算法。
英文摘要 This study uses nine data complexity indexes to evaluate 25 different binary imbalanced datasets which contain some anomaly data points. Also, considering all current data complexity indexes uses only numerical variable, we use the CRIMCOORD transformation to deal with the categorical variables. At the same time, this study focuses on the characteristics in essence of the data, therefore, we compare the performance of five different classifiers without resampling technique, including k-nearest neighbor, one-class support vector machine, random forest, XGBoost, and neural network. Canonical correlation analysis is applied to explore the relationship between the data complexity indexes and the classification technique. The result is then use to decide the priority of the recommendation of the classification techniques. The empirical results of this study show that the Fisher’s discriminant ratio (F1) and the ratio of the average distance to intraclass nearest neighbor, and the average distance to interclass nearest neighbor (N2) are the key factors to affect the priority of the recommendation of the classification techniques.

To avoid the over-estimation of the performance of the classification techniques, the criteria used in this study to evaluate the performance of the classification techniques is Area Under the PR Curve (AUPRC), not Area Under the Curve (AUC). The empirical results of this study show that when the data is complicated, we precede recommend to use tree-based model, like XGBoost or random forest, next is neural network, and do not recommend to use one-class support vector machine or k-nearest neighbor.
論文目次 目錄
第一章 緒論 1
第1-1節 研究背景 1
第1-2節 研究動機與目的 1
第1-3節 研究流程 2

第二章 文獻探討 3
第2-1節 資料複雜度指標 3
1.Fisher’s最大判別比(F1) 3
2.重疊區域量(F2) 4
3.特徵效率指標(F3) 5
4.最佳化線性規劃目標函數值(L1) 5
5.同類別交集群聚集合數比例(T1) 6
6.樣本數與變數個數的比值(T2) 6
7.基於最小生成樹的分類邊界相異類別樣本比例(N1) 7
8.最鄰近點之組內與組間的平均距離比率(N2) 8
9.類別平衡程度(C1) 8
第2-2節 分類模型 10
1.k-最鄰近演算法 10
2.單類支持向量機 11
3.隨機森林 13
4.極限梯度提升法 14
5.類神經網路 15
第2-3節 CRIMCOORD轉換 17
第2-4節 典型相關分析 19

第三章 研究方法 21
第3-1節 研究架構 21
第3-2節 分類技術的評估與比較指標 23
1.混淆矩陣 23
2.精確召回曲線與曲線下面積 24

第四章 實例結果說明與評估 26
第4-1節 資料敘述 26
1.資料複雜度指標計算 27
2.C++函式庫使用說明 27
3.各資料集之計算結果概況與說明 29
第4-2節 分類技術之評估與整體比較 32
第4-3節 資料複雜度指標與分類技術指標之關聯探討 34

第五章 結論與建議 42
第5-1節 結論 42
第5-2節 研究建議 44

參考文獻 45

表目錄
表 1:資料複雜度指標彙整 9
表 2:資料複雜度指標與分類問題難易度關聯彙整 10
表 3:分類模型彙整 10
表 4:二元混淆矩陣 23
表 5:資料集資訊彙整 26
表 6:軟硬體規格彙整 27
表 7:資料複雜度指標在資料層面之意義說明 29
表 8:各資料集資料複雜度計算結果與其整體複雜度排名彙整 31
表 9:資料集之分類技術評估指標彙整 33
表 10:分類技術之模型評估指標彙整 33
表 11:典型相關係數彙整 34
表 12:U1與所對應的原變數之相關係數彙整 34
表 13:V1與所對應的原變數之相關係數彙整 35
表 14:綜合指標分群等級說明彙整 36
表 15:綜合指標分數與各分類技術之原始、平均AUPRC之彙整 (等級1) 36
表 16:綜合指標分數與各分類技術之原始、平均AUPRC之彙整 (等級2) 37
表 17:綜合指標分數與各分類技術之原始、平均AUPRC之彙整 (等級3) 38
表 18:綜合指標分數與各分類技術之原始、平均AUPRC之彙整 (等級4) 38
表 19:各綜合指標等級之相關平均指標與分類技術之推薦順序彙整 39
表 20:各綜合指標等級之推薦順序彙整 39
表 21:實際推薦順序應用於等級1資料集之各分類技術表現結果 40
表 22:實際推薦順序應用於等級2資料集之各分類技術表現結果 40
表 23:實際推薦順序應用於等級3資料集之各分類技術表現結果 41
表 24:實際推薦順序應用於等級4資料集之各分類技術表現結果 41

圖目錄
圖 1:最小生成樹示意圖 7
圖 2:k-最鄰近演算法示意圖 11
圖 3:決策樹示意圖 13
圖 4:類神經網路架構圖 16
圖 5:研究架構流程圖 22
圖 6:PR曲線示意圖 25
圖 7:KEEL格式示意圖 28
圖 8:C++程式碼之執行結果示意圖 29
參考文獻 中文文獻
沈彥廷,2012。資料複雜度指標對資料探勘分類技術的影響,淡江大學統計學系應用統計學碩士班碩士論文。
葉丞峻,2017。適用於分類變數資料的二元不平衡資料自動分類系統,淡江大學統計學系應用統計學碩士班碩士論文。
郭珉辰,2019。資料探勘技術在信用卡不平衡資料上之應用,淡江大學大數據分析與商業智慧碩士學位學程碩士論文。

英文文獻
Branco, P., Torgo, L., and Ribeiro, R.P., 2016. A Survey of Predictive Modeling on Imbalanced Domains. ACM Comput. Surv., 49, 31:1-31:50.
Bellman, R., 1954. The Theory of Dynamic Programming.
Breiman, L., 2001. Random Forests, Machine Learning, 45(1), 5-32.
Chen, T. and Guestrin, C., 2016. XGBoost: A Scalable Tree Boosting System. Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.
Cortes, C. and Vapnik, V., 1995. Support-Vector Networks. Machine Learning, 20, 273-297.
Cover, T.M. and Hart, P.E., 1967. Nearest Neighbor Pattern Classification. IEEE Trans. Inf. Theory, 13, 21-27.
Dhaliwal, S.S., Nahid, A.A., and Abbas, R., 2018. Effective Intrusion Detection System Using XGBoost. Information, 9, 149.
Domingues, R., Filippone, M., Michiardi, P., and Zouaoui, J., 2018. A Comparative Evaluation of Outlier Detection Algorithms: Experiments And Analyses. Pattern Recognit., 74, 406-421.
Eaton, M.L. and Perlman, M.D., 1973. The Non-Singularity of Generalized Sample Covariance Matrices.
Fan, H., 2013. Land-Cover Mapping in the Nujiang Grand Canyon: Integrating Spectral, Textural, and Topographic Data in A Random Forest Classifier. International Journal of Remote Sensing, 34, 7545-7567.
Fix, E. and Hodges, J.L., 1952. Discriminatory Analysis - Nonparametric Discrimination:Small Sample Performance.
Friedman, J.H. and Rafsky, L.C., 1979. Multivariate Generalizations of the Wald-Wolfowitz and Smirnov Two-Sample Tests.
Gnanadesikan, R., 1977. Methods for Statistical Data Analysis of Multivariate Observations. A Wiley publication in applied statistics.
Ho, T.K. and Basu, M., 2002. Complexity Measures of Supervised Classification Problems. IEEE Trans. Pattern Anal. Mach. Intell., 24, 289-300.
Hotelling, H., 1936. Relations Between Two Sets of Variates. Biometrika, Volume 28, Issue 3-4, 321–377
Jain, A.K., Mao, J. and Mohiuddin, K.M., 1996. Artificial Neural Networks: A Tutorial. IEEE Computer, 29, 31-44.
Kalousis, A., Gama, J. and Hilario, M., 2004. On Data and Algorithms: Understanding Inductive Performance. Machine Learning, 54, 275-312.
Lebourgeois, F. and Emptoz, H., 1996. Pretopological Approach for Supervised Learning. ICPR.
Loh, W. and Shih, Y., 1997. Split Selection Methods for Classification Trees.
Manevitz, L.M. and Yousef, M., 2001. One-Class SVMs for Document Classification. J. Mach. Learn. Res, 2, 139-154.
Math Works, 1991. MATLAB User’s Guide, The MathWorks, Inc., Cochituate Place, 24 Prime Park Way, Natick, MA 01760.
McCulloch, W.S., Pitts, W., 1943. A Logical Calculus of the Ideas Immanent in Nervous Activity. Bulletin of Mathematical Biophysics, 5, 115–133
Morán-Fernández, L., Bolón-Canedo, V., and Alonso-Betanzos, A., 2016. Data Complexity Measures for Analyzing the Effect of SMOTE Over Microarrays. ESANN.
Orriols-Puig, A., Maciá, N. and Ho, T.K., 2010. Documentation for the Data Complexity Library in C++. Technical report, La Salle - Universitat Ramon Llull.
Provost, F.J. and Kohavi, R., 2004. Guest Editors' Introduction: On Applied Research in Machine Learning. Machine Learning, 30, 127-132.
Saito, T. and Rehmsmeier, M., 2015. The Precision-Recall Plot Is More Informative than the ROC Plot When Evaluating Binary Classifiers on Imbalanced Datasets. PLoS ONE, 10.
Schölkopf, B., Williamson, R.C., Smola, A.J., Shawe-Taylor, J. and Platt, J.C., 1999. Support Vector Method for Novelty Detection. NIPS.
Smith, F.W., 1968. Pattern Classifier Design by Linear Programming. IEEE Transactions on Computers, C-17, 367-372.
Yeh, I. and Lien, C., 2009. The Comparisons of Data Mining Techniques for the Predictive Accuracy of Probability of Default of Credit Card Clients. Expert Syst. Appl, 36, 2473-2480.
論文使用權限
  • 同意紙本無償授權給館內讀者為學術之目的重製使用,於2020-07-27公開。
  • 同意授權瀏覽/列印電子全文服務,於2020-07-27起公開。


  • 若您有任何疑問,請與我們聯絡!
    圖書館: 請來電 (02)2621-5656 轉 2486 或 來信