§ 瀏覽學位論文書目資料
  
系統識別號 U0002-2301201615234600
DOI 10.6846/TKU.2016.00723
論文名稱(中文) 應用資料探勘技術於電話行銷成功與否之預測
論文名稱(英文) Using Data Mining Techniques to Predict the Success of Telemarketing
第三語言論文名稱
校院名稱 淡江大學
系所名稱(中文) 資訊工程學系碩士在職專班
系所名稱(英文) Department of Computer Science and Information Engineering
外國學位學校名稱
外國學位學院名稱
外國學位研究所名稱
學年度 104
學期 1
出版年 105
研究生(中文) 張凱評
研究生(英文) Kai-Ping Chang
學號 702410068
學位類別 碩士
語言別 繁體中文
第二語言別 英文
口試日期 2015-12-25
論文頁數 72頁
口試委員 指導教授 - 許輝煌(huihuanghsu@gmail.com)
委員 - 白敦文
委員 - 許輝煌
委員 - 林潮文
關鍵字(中) 電話行銷
倒傳遞類神經網路
支援向量機
決策樹
資料不平衡問題
關鍵字(英) telemarketing
back propagation neural networks
support vector machine
decision tree
imbalanced data problem
第三語言關鍵字
學科別分類
中文摘要
近年來越來越多企業開始注重與客戶之間的關係,從傳統的商品導向銷售模式,逐漸轉型為客製化經營思維,行銷方式也轉變為客戶導向行銷模式,電話行銷也因此蓬勃發展,許多企業紛紛成立自己的電銷中心,並期望透過電話行銷為企業帶來豐厚的利潤。為了能夠了解客戶的需求及喜好,企業需要透過大量的資料分析,來得知客戶的價值與重要性,針對高價值客戶,企業可以對其喜好做適當的調整,為重要的客戶提供更完善的服務。
    本研究以UC Irvine Machine Learning Repository所提供的銀行客戶電話行銷記錄,做為研究數據的基礎,針對客戶名單進行前置處理,解決類別不平衡的問題,使用支援向量機、決策樹、類神經網路建立分類系統,並觀察分類器的預測結果,進行分類模型比較分析。實驗結果顯示,分類模型搭配取樣技術可有效改善資料類別不平衡問題,降低分類模型誤判的機率,其中以合成少數類別技術(SMOTE)搭配類神經的結果最佳,真陽性率(TPR)可達97.69%,其次為隨機減少多數類別法(Random Under-Sampling)搭配支援向量機,真陽性率為95.46%,由此可知,應用資料探勘技術於電話行銷,可幫助企業降低銷售成本,挖掘潛在客戶,增加企業利潤。
英文摘要
In recent years, more and more enterprises began to focus on the relation between customers and corporation. The traditional commodity-oriented sales model is gradually transformed into customized business thinking. The way of marketing turn to customer-oriented marketing model and, in consequence, telemarketing has booming. Many companies have set up their own telemarketing center, and expect huge profits for the enterprise through telemarketing. In order to realize customer’s needs and taste, companies need to get a large amount of information through the data analysis to know the value and importance of customers. Companies can make the appropriate adjustments for high-value customers, in addition to provide better service for important customer.
   In this study, the data of the research base on bank customer telemarketing records which provided by UC Irvine Machine Learning Repository (UCI). Pre-processing the customer list in order to solve the problem of imbalanced data. Using Support Vector Machine (SVM), Decision Trees, Artificial Neural Network classification system established, and observation classifier prediction, comparative analysis of classification models. Experimental results show that the classification model with Sampling techniques can effectively improve the imbalanced data problem, reduce the chance of false negative classification model, which Synthetic Minority Over-Sampling Technique (SMOTE) with Artificial Neural Network had best results, True Positive Rate (TPR) up to 97.69%, followed by Under-Sampling with Support Vector Machine (SVM), True Positive Rate (TPR) is 95.46%. Consequently, the application of data mining in telemarketing, can help companies reduce the cost of sales, and thus potential customers, increase corporate profits.
第三語言摘要
論文目次
目錄	V
圖目錄	VII
表目錄	VIII
第一章	緒論	1
1.1  研究背景與動機	1
1.2  研究目的	2
1.3  論文組織與架構	3
第二章	文獻探討	4
2.1  電話行銷	4
2.2  資料探勘	6
2.2.1   資料探勘的技術	7
2.3  支援向量機	9
2.3.1   基本原理	9
2.3.2   核心函數	11
2.4  決策樹	13
2.4.1   基本原理	13
2.4.2   決策樹演算法	14
2.5  類神經網路	16
2.5.1   基本原理	17
2.5.2   倒傳遞類神經網路	19
2.6  資料前置處理	21
2.6.1   資料清理	22
2.6.2   資料轉換	23
2.7  資料不平衡問題	24
2.7.1   抽樣技術	26
2.8  評估指標	28
第三章	研究方法	30
3.1  研究架構	30
3.2  研究範圍	32
3.3  研究限制	33
3.4  資料前置處理	33
3.4.1   資料填補	33
3.4.2   資料轉換	33
3.4.3   資料取樣	34
3.5  分類模型建置	35
3.5.1   支援向量機	35
3.5.2   決策樹	37
3.5.3   類神經網路	38
第四章	實驗結果與分析	41
4.1  實驗資料	41
4.2  資料前置處理	42
4.3  各模型分類實驗結果	45
4.3.1   分類效果評估-支援向量機	45
4.3.2   分類效果評估-決策樹	49
4.3.3   分類效果評估-類神經網路	54
4.3.4   總結與討論	57
第五章	結論與未來發展	61
5.1  結論	61
5.2  未來發展	62
參考文獻	63
附錄 英文論文	65

圖目錄
圖2-1:資料探勘流程圖	6
圖2-2:支援向量機	10
圖2-3:決策樹	14
圖2-4:類神經	17
圖2-5:倒傳遞類神經	19
圖2-6:最近鄰居填補法	23
圖2-7:合成少數類別技術	27
圖3-1:研究架構圖	31
圖3-2:支援向量機建立流程	36
圖3-3:決策樹建立流程	38
圖3-4:倒傳遞類神經網路建立流程	40
圖4-1:支援向量機分類結果比較圖	48
圖4-2:決策樹分類結果比較圖	54
圖4-3:類神經網路分類結果比較圖	57
圖4-4:預測模型比較圖	60

表目錄
表2-1:分類矩陣	28
表4-1:Bank Marketing欄位說明	41
表4-2:變數遺漏統計表	43
表4-3:資料取樣表	45
表4-4:支援向量機分類結果(原始資料)	46
表4-5:支援向量機分類結果(Under-Sampling)	46
表4-6:支援向量機分類結果(Over-Sampling)	47
表4-7:支援向量機分類結果(SMOTE)	47
表4-8:決策樹參數整理表(原始資料)	49
表4-9:決策樹分類結果(原始資料)	50
表4-10:決策樹參數整理表(Under-Sampling)	50
表4-11:決策樹分類結果(Under-Sampling)	51
表4-12:決策樹參數整理表(Over-Sampling)	51
表4-13:決策樹分類結果(Over-Sampling)	52
表4-14:決策樹參數整理表(SMOTE)	52
表4-15:決策樹分類結果(SMOTE)	53
表4-16:類神經網路隱藏層單元數設定結果	54
表4-17:類神經分類結果(原始資料)	55
表4-18:類神經分類結果(Under-Sampling)	55
表4-19:類神經分類結果(Over-Sampling)	56
表4-20:類神經分類結果(SMOTE)	56
表4-21:分類效果評估	59
參考文獻
[1]	Stone, B., & Wyman, J. (1998).電話行銷. 商周文化事業股份有限公司.
[2]	姚能筆. (2006) .人壽保險多元行銷通路之研究—以電話行銷為例.
國立政治大學經營管理碩士學程風險管理與保險學組碩士在職專班論
文.
[3]	Fayyad, U., Shapiro, G., & Smyth, P. (1996). From Data Mining to Knowledge Discovery in Databases, Advances in Knowledge Discovery and Data
Mining, Calif, 37–54.
[4]	Agrawal, R., Imielinski, T., & Swami, A. (1993). Database Mining : A Performance Perspective. IEEE, 5(6), 914-925.
[5]	Berry, M. J. A., & Linoff, G. (1996). Mastering Data Mining, John Wiley and Sons, 12-70.
[6]	Vapnik, V. (1995). The Nature of Statistical Learning Theory, Springer-Verlag, New York.
[7]	Zhang, S., Sadaoui1, S., & Mouhoub1, M. (2015). An Empirical Analysis of Imbalanced Data Classification. Computer and Information Science, 8(1), 151-162.
[8]	Hsu C. W., Chang C. C., & C. J. Lin. (2003). A Practical Guide to Support Vector Classification, Technical Report, Department of Computer Science and Information Engineering, University of National Taiwan, Taipei, 1-12.
[9]	Quinlan, J. R. (1993). C4.5: Programs for Machine Learning. San Mateo,  Morgan Kaufman Publishers.
[10]	Mcculloch, W. S., & Pitts, W. (1943). A Logical Calculus of The Ideas Immanent In Nervous Activity. Bulletin of Mathematical Biophysics, 5, 115–133.
[11]	Hopfield, J. J. (1982). Neural networks and physical systems with emergent collective computational abilities. Proceedings of the National Academy of Sciences of the United States of America, 79, 2554-2558.
[12]	Vellido, A., Lisboa, P. J. G., & Vaughan, J. (1999). Neural networks in business: a survey of applications (1992–1998). Expert Systems with Applications, 17, 51-70.
[13]	Zekic, M. (1998). Neural Network Applications in Stock Market Predictions: A Methodology Analysis. Proceedings of the 9th International Conference on Information and Intelligent Systems, 651(82), 255 -263.
[14]	Haykin, S. (1999). Neural Networks. A Comprehensive Foundation 2nd Edition, Prentice Hall.
[15]	Shibata, K. & Ikeda, Y. (2009). Effect of number of hidden neurons on learning in large-scale layered neural networks. ICROS-SICE International Joint Conference, 09, 5008–5013.
[16]	Beale, R., & Jackson, T. (1990). Neural Computing-an introduction. CRC Press.
[17]	Chen, J. & Shao, J. (2000). Nearest Neighbor Imputation for Survey Data. Journal of Official Statistics, 16(2), 113-131.
[18]	Liu, W., & Chawla, S. (2011). Class confidence weighted kNN algorithms for imbalanced data sets. Proceedings of the 15th Pacific-Asia conference on advances in knowledge discovery and data mining, Part II, 345-256.
[19]	Haibo, H. (2009). Learning from Imbalanced Data. IEEE, 21(9), 1263-1284.
[20]	Ye, Z. F., Wen, Y. M., & Lu, B. L.(2009). A Survey of imbalanced pattern classification problems. CAA Transactions on Intelligent Systems, 4(2).
[21]	Kubat, M., & Matwin, S. (1997). Addressing the curse of imbalanced training sets :one –sided selection. Machine Learning, 179-186.
[22]	Lewis, D. D., & Catlett, J. (1994). Heterogeneous Uncertainty Sampling for Supervised Learning. In Proceedings of the Eleventh International Conference on Machine Learning.
[23]	Chawla, N. V., Bowyer, K. W., Hall, L. O., & Kegelmeyer, K. P. (2002).  SMOTE: Synthetic Minority Over-sampling Technique. Journal Of Artificial Intelligence Research, 16, 321-357.
[24]	UC Irvine Machine Learning Repository, http://archive.ics.uci.edu/ml/.
[25]	Sergio, M., Paulo, C., & Paulo, R. (2014). A data-driven approach to predict the success of bank telemarketing. Decision Support Systems, 62, 22-31.
[26]	IBM SPSS Modeler用户指南. (2011).
ftp://public.dhe.ibm.com/software/analytics/spss/documentation/modeler/14.2/zh_CN/UsersGuide.pdf.
[27]	林智仁, LIBSVM, http://www.csie.ntu.edu.tw/~cjlin/.
[28]	Wisaeng, K. (2013). A Comparison of Different Classification Techniques
for Bank Direct Marketing. International Journal of Soft Computing and Engineering, 3(4), 2231-2307.
[29]	Hany, A. (2014). Bank Direct Marketing Analysis of Data Mining Techniques. International Journal of Computer Applications, 85(7), 12-22.
論文全文使用權限
校內
校內紙本論文立即公開
同意電子論文全文授權校園內公開
校內電子論文立即公開
校外
同意授權
校外電子論文立即公開

如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信