淡江大學覺生紀念圖書館 (TKU Library)
進階搜尋


下載電子全文限經由淡江IP使用) 
系統識別號 U0002-2506201314271000
中文論文名稱 以兩階段分類法建構信用卡授信決策模型的實務評估
英文論文名稱 Empirical Evaluation of Two-Stage Classification Methods on Credit Card Approval System.
校院名稱 淡江大學
系所名稱(中) 統計學系碩士班
系所名稱(英) Department of Statistics
學年度 101
學期 2
出版年 102
研究生中文姓名 巫天虹
研究生英文姓名 Tien-Hung Wu
學號 601650012
學位類別 碩士
語文別 中文
口試日期 2013-06-18
論文頁數 80頁
口試委員 指導教授-陳景祥
委員-李百靈
委員-歐士田
中文關鍵字 變數選取  信用卡  邏輯斯迴歸  隨機森林  支援向量機  C4.5  C5.0 
英文關鍵字 feature selection  credit card  logistic regression  random forest  support vector machine  C4.5  C5.0 
學科別分類
中文摘要 近年來,信用卡業務的成長相當的快速,但對於信用卡審核並不嚴謹,使得風險提高,導致2005年底爆發了卡債風暴,使得金融機構承受莫大的損失。
信用卡審核根據申請人過去的信用表現、個人資訊進行判斷,但這些資訊是相當龐大的。因此本研究以兩階段的模型進行預測,首先以F-score法、主成分分析法對眾多的變數進行篩選,將較具有意義的變數保留,並結合邏輯斯迴歸、隨機森林、支援向量機、C4.5、C5.0五種分類器建置模型,進而計算平均預測正確率、敏感度、特異度,進行分類模型評估並與原始未做變數選取的模式進行比較,結果顯示以兩階段方法所建立的模式較原始模式的分類能力能有所提升,並且因變數的減少使模型的運算效率增加。
英文摘要 The credit card market has been growing rapidly in recent years but the careless authorization of credit cards made the risk of banks increased. Card debt crisis was occured in 2005 and the banks at Taiwan suffered great loss.
Credit card approval relies on past credit performance and applicant's personal information, but the amount of information is quite large. In this study, we establish prediction models of approval classification by two-stage methods. First, important attributes are selected by F-score and principal component analysis, combined with five different classifiers which are logistic regression, random forest, support vector machines, C4.5 and C5.0, to establish approval models. The average accuracy, sensitivity and specificity of each approach are compared in combination with different classifiers. Our study shows that the two-stage model is better than original classification methods. Reduction of the variables also enhance the computational efficiency.
論文目次 目錄 I
表目錄 III
圖目錄 IV

第一章 緒論 1
1.1 研究背景與動機 1
1.2 研究目的 2
1.3 研究流程 3
第二章 文獻探討 5
2.1 信用卡發展概況 5
2.2 信用卡風險探討 5
2.3 信用風險評估要素 6
2.4 信用卡信用評估方法 7
2.5 信用風險之相關實證研究 9
2.6 變數篩選 11
2.7 分類方法相關文獻 13
2.7.1 邏輯斯迴歸 13
2.7.2 隨機森林 14
2.7.3 支援向量機 15
2.7.4 C4.5 決策樹 19
2.7.5 C5.0決策樹 23
第三章 研究方法 25
3.1 研究架構 25
3.2 資料收集與前置處理 27
3.2.1 類別轉數值 27
3.2.2 標準化 29
3.3 變數選取 29
3.3.1 F-score法 30
3.3.2 主成份分析 31
3.4 分類模式建構 33
3.5 模式評估 34
第四章 實證分析 36
4.1 資料介紹 36
4.2 變數個數選取 37
4.3 方法之間的比較 41
4.4 模型衡量 45
4.4.1 敏感度 45
4.4.2 特異度 48
第五章 結論與建議 52
英文參考文獻 54
中文參考文獻 56
附錄 58

表目錄

表1信用資料集 36
表2變數選取使用F-score方法彙整表 37
表3澳洲資料集使用PCA方法之總變異數 38
表4德國資料集使用PCA方法之總變異數 39
表5台灣資料集使用PCA方法之總變異數 40
表6變數選取使用PCA方法彙整表 41
表7 澳洲資料子集結合分類器之平均預測正確率 42
表8德國資料子集結合分類器之平均預測正確率 43
表9台灣資料子集結合分類器之平均預測正確率 44
表10澳洲資料子集結合分類器之平均敏感度 46
表11德國資料子集結合分類器之平均敏感度 47
表12台灣資料子集結合分類器之平均敏感度 47
表13澳洲資料子集結合分類器之平均特異度 48
表14德國資料子集結合分類器之平均特異度 49
表15台灣資料子集結合分類器之平均特異度 50

圖目錄

圖1研究流程圖 4
圖2 filter model流程圖 12
圖3 wrapper model流程圖 12
圖4線性支援向量機示意圖 16
圖5研究架構圖 26
圖6混淆距陣示意圖 34

參考文獻 1.Berkson, J. (1944). Application of the logistic function to bioassay. Journal of the American Statistical Association, 39(227), 357-365.
2.Breiman, L. (2001). Random forests. Machine learning, 45(1), 5-32.
3.Cortes, C., &Vapnik, V. (1995). Support-vector networks. Machine learning, 20(3), 273-297.
4.Chen, Y. W., & Lin, C. J. (2006). Combining SVMs with various feature selection strategies. Feature Extraction 315-324. Springer Berlin Heidelberg.
5.Chen, W., Ma, C., & Ma, L. (2009). Mining the customer credit using hybrid support vector machine technique. Expert Systems with Applications, 36(4), 7611-7616.
6.Hardle, W., &Simar, L. (2007). Applied multivariate statistical analysis. Springer Verlag.
7.Hotelling, H. (1933). Analysis of a complex of statistical variables into principal components. The Journal of educational psychology, 498-520.
8.Huang, C. L., Chen, M. C., & Wang, C. J. (2007). Credit scoring with a data mining approach based on support vector machines. Expert Systems with Applications, 33(4), 847-856.
9.Hunn, P. (1971). Bank credit in the 1970’s new realities and old verities. The Journal of Commercial Bank Lending, 29-34.
10.Kohavi, R. (1995, August). A study of cross-validation and bootstrap for accuracy estimation and model selection. In International joint Conference on artificial intelligence (Vol. 14, pp. 1137-1145). Lawrence Erlbaum Associates Ltd.
11.Liu, H., &Motoda, H. (1998). Feature selection for knowledge discovery and data mining. Springer.
12.Loh, W. Y., & Shih, Y. S. (1997). Split selection methods for classification trees. Statisticasinica, 7, 815-840.
13.Pearson, K. (1901). Principal components analysis. The London, Edinburgh, and Dublin Philosophical Magazine and Journal of Science, 6(2), 559.
14.Quinlan, J. R. (1986). Induction of decision trees. Machine learning, 1(1), 81-106.

1.黃承龍、陳穆臻、王界人(2004)。“支援向量機於信用評等之應用”。計量管理期刊,1,155~172。
2.李逢嘉(2010)。“特徵選取為基礎之複合分類預測模式-以信用資料為例”.清華大學工業工程與工程管理學系學位論文 2010 年。
3.R 軟體: 應用統計方法. 臺北市: 臺灣東華書局公司, 2010。
4.馬振武(2009)。“基因演策法為基礎之決策樹於信用卡使用者之違約分類預測-以台灣某銀行信用卡為例”。華梵大學資訊管理學系碩士論文。
5.陳昭穎(2006)。“資料探勘技術於超音波旋轉肌肌群影像之診斷應用”。國立屏東商業技術學院資訊管理學系。
6.陳姿穎(民99)。“信用風險訊息揭露與行為評分卡建立之研究”,輔仁大學,應用統計學研究所碩士論文。
7.郭幸香. (2010)。“信用卡帳款分期付款客戶之特性分析”. 臺北大學統計學系學位論文, (2010 年), 1-53。
8.謝宜芳 (2004)。“信用卡業務的徵審過程、繳款改變與違約之研究”,未出版之碩士論文,國立中央大學財務金融研究所碩士論文。
9.劉書汎. (2009)。“信用卡違約風險評估模型─ 應用粗糙集與因素分析”. 朝陽科技大學財務金融系學位論文。
10.庞素琳, &巩吉璋. (2009)。“C5.0 分类算法及在银行个人信用评级中的应用”。系统工程理论与实践, (012), 94-104。
11.曾文科, 顏雨青, &楊燕珠. (2004)。 “在分類樹建構上數值型屬性的啟發式分割法”。
論文使用權限
  • 同意紙本無償授權給館內讀者為學術之目的重製使用,於2013-07-01公開。
  • 同意授權瀏覽/列印電子全文服務,於2013-07-01起公開。


  • 若您有任何疑問,請與我們聯絡!
    圖書館: 請來電 (02)2621-5656 轉 2281 或 來信