系統識別號 | U0002-2607202022062700 |
---|---|
DOI | 10.6846/TKU.2020.00767 |
論文名稱(中文) | 集成學習在信貸不平衡資料上之應用 |
論文名稱(英文) | Application of Ensemble Learning in Imbalanced Personal Credit Data |
第三語言論文名稱 | |
校院名稱 | 淡江大學 |
系所名稱(中文) | 統計學系應用統計學碩士班 |
系所名稱(英文) | Department of Statistics |
外國學位學校名稱 | |
外國學位學院名稱 | |
外國學位研究所名稱 | |
學年度 | 108 |
學期 | 2 |
出版年 | 109 |
研究生(中文) | 王秋豐 |
研究生(英文) | Chiu-Feng Wang |
學號 | 607650222 |
學位類別 | 碩士 |
語言別 | 繁體中文 |
第二語言別 | |
口試日期 | 2020-07-01 |
論文頁數 | 55頁 |
口試委員 |
指導教授
-
陳景祥
共同指導教授 - 李百靈 委員 - 何宗武 委員 - 鄧文舜 |
關鍵字(中) |
不平衡資料 重抽樣 集成學習 Bagging Stacking |
關鍵字(英) |
Imbalanced Data Resampling Ensemble Learning Bagging Stacking |
第三語言關鍵字 | |
學科別分類 | |
中文摘要 |
現今的社會上信用卡在消費習慣上佔有極大的比例,對銀行而言信用卡帶來龐大的商機,同時提升客戶違約的風險並造成重大損失,而違約客戶僅占整體客戶中的少數且不易察覺,屬於不平衡資料的範疇。本研究使用不同重抽樣方法將資料結構做處理,並利用集成學習方法結合機器學習的羅吉斯回歸、支持向量機、隨機森林、極限梯度提升4種模型來尋找潛在違約客戶,藉此降低損失成本,透過合適的模型評估指標比較不同重抽樣方法結合集成學習模型在不平衡資料上的表現,並探討集成學習模型在不平衡資料上之應用情況。 |
英文摘要 |
Credit cards information hold a large proportion of consumption habits. For banks, credit cards bring a lot of benefits on business. However, it increases the risk of customer defaults and cause huge losses at the same time. The default customers are minority of the whole data, which is not easy to predict and it belongs to the field of imbalanced data. This study uses different resampling methods for processing the data structure, and uses methods of ensemble learning combined with machine learning algorithms for predicting potential default customers, including logistic regression, support vector machine, random forest, and extreme gradient boosting. Accordingly, bank can keep the cost down. We compare the performance of different resampling methods with the model of ensemble learning through some appropriate evaluation indexes, and discuss the application of ensemble learning in imbalanced data. |
第三語言摘要 | |
論文目次 |
目錄 目錄 I 圖目錄 IV 表目錄 VI 第一章 緒論 1 第一節、 研究背景 1 第二節、 研究動機與目的 3 第三節、 論文架構 4 第二章 文獻回顧 6 第一節、 不平衡資料 6 第二節、 不平衡資料的抽樣方法 8 2.2.1 超抽樣 8 2.2.2 欠抽樣 8 2.2.3 隨機超抽樣 9 2.2.4 合成少數類超抽樣 10 第三節、 分類器 11 2.3.1 羅吉斯回歸 11 2.3.2 支持向量機 12 2.3.3 隨機森林 13 2.3.4 極限梯度提升 14 第四節、 集成模型架構 16 2.4.1 Bootstrap aggregating 16 2.4.2 Stacking 17 2.4.3 bstacking 18 第三章 研究方法 21 第一節、 方法與架構 21 第二節、 重抽樣bstacking 23 第三節、 模型評估指標 24 3.4.1 預測正確率 25 3.4.2 馬修相關係數 25 3.4.3 F-measure 26 3.4.4 ROC曲線 27 第四章 實驗資料與研究評估 29 第一節、 分析環境 29 第二節、 研究資料介紹 29 第三節、 方法結果與評估 33 4.1.1. bstacking模型與單一模型比較 33 4.1.2. 超參數T比較 38 4.1.3. 超參數P比較 42 4.1.4. 重抽樣bstacking比較 47 第五章 結論 52 第一節、 總結 52 第二節、 未來研究 53 參考文獻 54 圖目錄 圖 1 研究流程圖 5 圖2 SVM示意圖 13 圖3 XGBoost樹狀示意圖 15 圖4 Bagging架構示意圖 16 圖5 Stacking架構示意圖 17 圖6 bstacking虛擬碼 19 圖7 bstacking架構示意圖 20 圖8 研究方法流程圖 22 圖9 重抽樣bstacking架構示意圖 23 圖10 ROC曲線示意圖 27 圖11 集成學習與單一分類器之馬修相關係數箱型圖 34 圖12 集成學習與單一分類器之AUC箱型圖 35 圖13 集成學習與單一分類器之精準率箱型圖 35 圖14 集成學習與單一分類器之召回率箱型圖 36 圖15 集成學習與單一分類器之F1指標箱型圖 36 圖16 集成學習與單一分類器之預測正確率箱型圖 37 圖17 bstacking超參數T之馬修相關係數箱型圖 39 圖18 bstacking超參數T之AUC箱型圖 39 圖19 bstacking超參數T之精準度箱型圖 40 圖20 bstacking超參數T之召回率箱型圖 40 圖21 bstacking超參數T之F1指標箱型圖 41 圖22 bstacking超參數T之預測正確率箱型圖 41 圖23 bstacking超參數P之馬修相關係數箱型圖 43 圖24 bstacking超參數P之AUC箱型圖 43 圖25 bstacking超參數P之精準率箱型圖 44 圖26 bstacking超參數P之召回率箱型圖 44 圖27 bstacking超參數P之F1指標箱型圖 45 圖28 bstacking超參數P之預測正確率箱型圖 45 圖29 bstacking在不同組合下之馬修相關係數箱型圖 48 圖30 bstacking在不同組合下之AUC箱型圖 48 圖31 bstacking在不同組合下之精準率箱型圖 49 圖32 bstacking在不同組合下之召回率箱型圖 49 圖33 bstacking在不同組合下之F1指標箱型圖 50 圖34 bstacking在不同組合下之預測正確率箱型圖 50 表目錄 表 1 混淆矩陣 24 表2 AUC指標能力對照表 28 表3 變數說明對照表 30 表4 變數數值範圍表 31 表5 變數類別次數表 32 表6 集成學習與單一分類器評估準則比較表 34 表7 bstacking超參數T評估準則比較表 38 表8 bstacking超參數P評估準則比較表 42 表9 bstacking在不同組合下的評估準則比較表 47 |
參考文獻 |
[1]Brown, I., & Mues, C., 2012. An experimental comparison of classification algorithms for imbalanced credit scoring data sets. Expert Systems with Applications., 39, 3446-3453. [2]Veganzones, D., & Séverin, E., 2018. An investigation of bankruptcy prediction in imbalanced datasets. Decision Support Systems., 112, 111-124. [3]Neema, S., & Soibam, B., 2017. The comparison of machine learning methods to achieve most cost-effective prediction for credit card default. Journal of Management Science and Business Intelligence., 2, 36-41. [4]Liu, Y., Cheng, J., Yan, C., Wu, X., & Chen, F., 2015. Research on the Matthews Correlation Coefficients Metrics of Personalized Recommendation Algorithm Evaluation. International Journal of Hybrid Information Technology., 8, 163-172. [5]Lunardon, N., Menardi, G., & Torelli, N., 2014. ROSE: a Package for Binary Imbalanced Learning. R Journal., 6, 79-89. [6]Chawla, N.V., Bowyer, K.W., Hall, L.O., & Kegelmeyer, W.P., 2002. SMOTE: Synthetic Minority Over-sampling Technique. Journal of Artificial Intelligence Research., 16, 321-357. [7]Boser, B.E., Guyon, I., & Vapnik, V.N., 1992. A training algorithm for optimal margin classifiers. COLT '92: Proceedings of the fifth annual workshop on Computational learning theory., 144–152. [8]Breiman, L., 2001. Random Forests. Machine Learning., 45, 5-32. [9]Chen, T., & Guestrin, C., 2016. XGBoost: A Scalable Tree Boosting System. Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. [10]Breiman, L., 1996. Bagging predictors. Machine Learning., 24, 123-140. [11]Wolpert, D.H., 1992. Stacked generalization. Neural Networks., 5, 241-259. [12]Xia, Y., Liu, C., Da, B., & Xie, F., 2018. A novel heterogeneous ensemble credit scoring model based on bstacking approach. Expert Systems with Applications., 93, 182-199. [13]Yeh, I., & Lien, C., 2009. The comparisons of data mining techniques for the predictive accuracy of probability of default of credit card clients. Expert Systems with Applications., 36, 2473-2480. |
論文全文使用權限 |
如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信