系統識別號 | U0002-2506201314271000 |
---|---|
DOI | 10.6846/TKU.2013.01030 |
論文名稱(中文) | 以兩階段分類法建構信用卡授信決策模型的實務評估 |
論文名稱(英文) | Empirical Evaluation of Two-Stage Classification Methods on Credit Card Approval System. |
第三語言論文名稱 | |
校院名稱 | 淡江大學 |
系所名稱(中文) | 統計學系應用統計學碩士班 |
系所名稱(英文) | Department of Statistics |
外國學位學校名稱 | |
外國學位學院名稱 | |
外國學位研究所名稱 | |
學年度 | 101 |
學期 | 2 |
出版年 | 102 |
研究生(中文) | 巫天虹 |
研究生(英文) | Tien-Hung Wu |
學號 | 601650012 |
學位類別 | 碩士 |
語言別 | 繁體中文 |
第二語言別 | |
口試日期 | 2013-06-18 |
論文頁數 | 80頁 |
口試委員 |
指導教授
-
陳景祥(chchen@stat.tku.edu.tw)
委員 - 李百靈(plli@stat.tku.edu.tw) 委員 - 歐士田(stou@mail.ntpu.edu.tw) |
關鍵字(中) |
變數選取 信用卡 邏輯斯迴歸 隨機森林 支援向量機 C4.5 C5.0 |
關鍵字(英) |
feature selection credit card logistic regression random forest support vector machine C4.5 C5.0 |
第三語言關鍵字 | |
學科別分類 | |
中文摘要 |
近年來,信用卡業務的成長相當的快速,但對於信用卡審核並不嚴謹,使得風險提高,導致2005年底爆發了卡債風暴,使得金融機構承受莫大的損失。 信用卡審核根據申請人過去的信用表現、個人資訊進行判斷,但這些資訊是相當龐大的。因此本研究以兩階段的模型進行預測,首先以F-score法、主成分分析法對眾多的變數進行篩選,將較具有意義的變數保留,並結合邏輯斯迴歸、隨機森林、支援向量機、C4.5、C5.0五種分類器建置模型,進而計算平均預測正確率、敏感度、特異度,進行分類模型評估並與原始未做變數選取的模式進行比較,結果顯示以兩階段方法所建立的模式較原始模式的分類能力能有所提升,並且因變數的減少使模型的運算效率增加。 |
英文摘要 |
The credit card market has been growing rapidly in recent years but the careless authorization of credit cards made the risk of banks increased. Card debt crisis was occured in 2005 and the banks at Taiwan suffered great loss. Credit card approval relies on past credit performance and applicant's personal information, but the amount of information is quite large. In this study, we establish prediction models of approval classification by two-stage methods. First, important attributes are selected by F-score and principal component analysis, combined with five different classifiers which are logistic regression, random forest, support vector machines, C4.5 and C5.0, to establish approval models. The average accuracy, sensitivity and specificity of each approach are compared in combination with different classifiers. Our study shows that the two-stage model is better than original classification methods. Reduction of the variables also enhance the computational efficiency. |
第三語言摘要 | |
論文目次 |
目錄 I 表目錄 III 圖目錄 IV 第一章 緒論 1 1.1 研究背景與動機 1 1.2 研究目的 2 1.3 研究流程 3 第二章 文獻探討 5 2.1 信用卡發展概況 5 2.2 信用卡風險探討 5 2.3 信用風險評估要素 6 2.4 信用卡信用評估方法 7 2.5 信用風險之相關實證研究 9 2.6 變數篩選 11 2.7 分類方法相關文獻 13 2.7.1 邏輯斯迴歸 13 2.7.2 隨機森林 14 2.7.3 支援向量機 15 2.7.4 C4.5 決策樹 19 2.7.5 C5.0決策樹 23 第三章 研究方法 25 3.1 研究架構 25 3.2 資料收集與前置處理 27 3.2.1 類別轉數值 27 3.2.2 標準化 29 3.3 變數選取 29 3.3.1 F-score法 30 3.3.2 主成份分析 31 3.4 分類模式建構 33 3.5 模式評估 34 第四章 實證分析 36 4.1 資料介紹 36 4.2 變數個數選取 37 4.3 方法之間的比較 41 4.4 模型衡量 45 4.4.1 敏感度 45 4.4.2 特異度 48 第五章 結論與建議 52 英文參考文獻 54 中文參考文獻 56 附錄 58 表目錄 表1信用資料集 36 表2變數選取使用F-score方法彙整表 37 表3澳洲資料集使用PCA方法之總變異數 38 表4德國資料集使用PCA方法之總變異數 39 表5台灣資料集使用PCA方法之總變異數 40 表6變數選取使用PCA方法彙整表 41 表7 澳洲資料子集結合分類器之平均預測正確率 42 表8德國資料子集結合分類器之平均預測正確率 43 表9台灣資料子集結合分類器之平均預測正確率 44 表10澳洲資料子集結合分類器之平均敏感度 46 表11德國資料子集結合分類器之平均敏感度 47 表12台灣資料子集結合分類器之平均敏感度 47 表13澳洲資料子集結合分類器之平均特異度 48 表14德國資料子集結合分類器之平均特異度 49 表15台灣資料子集結合分類器之平均特異度 50 圖目錄 圖1研究流程圖 4 圖2 filter model流程圖 12 圖3 wrapper model流程圖 12 圖4線性支援向量機示意圖 16 圖5研究架構圖 26 圖6混淆距陣示意圖 34 |
參考文獻 |
1.Berkson, J. (1944). Application of the logistic function to bioassay. Journal of the American Statistical Association, 39(227), 357-365. 2.Breiman, L. (2001). Random forests. Machine learning, 45(1), 5-32. 3.Cortes, C., &Vapnik, V. (1995). Support-vector networks. Machine learning, 20(3), 273-297. 4.Chen, Y. W., & Lin, C. J. (2006). Combining SVMs with various feature selection strategies. Feature Extraction 315-324. Springer Berlin Heidelberg. 5.Chen, W., Ma, C., & Ma, L. (2009). Mining the customer credit using hybrid support vector machine technique. Expert Systems with Applications, 36(4), 7611-7616. 6.Hardle, W., &Simar, L. (2007). Applied multivariate statistical analysis. Springer Verlag. 7.Hotelling, H. (1933). Analysis of a complex of statistical variables into principal components. The Journal of educational psychology, 498-520. 8.Huang, C. L., Chen, M. C., & Wang, C. J. (2007). Credit scoring with a data mining approach based on support vector machines. Expert Systems with Applications, 33(4), 847-856. 9.Hunn, P. (1971). Bank credit in the 1970’s new realities and old verities. The Journal of Commercial Bank Lending, 29-34. 10.Kohavi, R. (1995, August). A study of cross-validation and bootstrap for accuracy estimation and model selection. In International joint Conference on artificial intelligence (Vol. 14, pp. 1137-1145). Lawrence Erlbaum Associates Ltd. 11.Liu, H., &Motoda, H. (1998). Feature selection for knowledge discovery and data mining. Springer. 12.Loh, W. Y., & Shih, Y. S. (1997). Split selection methods for classification trees. Statisticasinica, 7, 815-840. 13.Pearson, K. (1901). Principal components analysis. The London, Edinburgh, and Dublin Philosophical Magazine and Journal of Science, 6(2), 559. 14.Quinlan, J. R. (1986). Induction of decision trees. Machine learning, 1(1), 81-106. 1.黃承龍、陳穆臻、王界人(2004)。“支援向量機於信用評等之應用”。計量管理期刊,1,155~172。 2.李逢嘉(2010)。“特徵選取為基礎之複合分類預測模式-以信用資料為例”.清華大學工業工程與工程管理學系學位論文 2010 年。 3.R 軟體: 應用統計方法. 臺北市: 臺灣東華書局公司, 2010。 4.馬振武(2009)。“基因演策法為基礎之決策樹於信用卡使用者之違約分類預測-以台灣某銀行信用卡為例”。華梵大學資訊管理學系碩士論文。 5.陳昭穎(2006)。“資料探勘技術於超音波旋轉肌肌群影像之診斷應用”。國立屏東商業技術學院資訊管理學系。 6.陳姿穎(民99)。“信用風險訊息揭露與行為評分卡建立之研究”,輔仁大學,應用統計學研究所碩士論文。 7.郭幸香. (2010)。“信用卡帳款分期付款客戶之特性分析”. 臺北大學統計學系學位論文, (2010 年), 1-53。 8.謝宜芳 (2004)。“信用卡業務的徵審過程、繳款改變與違約之研究”,未出版之碩士論文,國立中央大學財務金融研究所碩士論文。 9.劉書汎. (2009)。“信用卡違約風險評估模型─ 應用粗糙集與因素分析”. 朝陽科技大學財務金融系學位論文。 10.庞素琳, &巩吉璋. (2009)。“C5.0 分类算法及在银行个人信用评级中的应用”。系统工程理论与实践, (012), 94-104。 11.曾文科, 顏雨青, &楊燕珠. (2004)。 “在分類樹建構上數值型屬性的啟發式分割法”。 |
論文全文使用權限 |
如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信