§ 瀏覽學位論文書目資料
  
系統識別號 U0002-2607202020520600
DOI 10.6846/TKU.2020.00765
論文名稱(中文) 二階段加權隨機森林運用於汽車保險資料之應用
論文名稱(英文) Application of Two-Step Weighted Random Forest in Car Insurance Data
第三語言論文名稱
校院名稱 淡江大學
系所名稱(中文) 統計學系應用統計學碩士班
系所名稱(英文) Department of Statistics
外國學位學校名稱
外國學位學院名稱
外國學位研究所名稱
學年度 108
學期 2
出版年 109
研究生(中文) 張竣維
研究生(英文) Jyun-Wei Jhang
學號 607650065
學位類別 碩士
語言別 繁體中文
第二語言別
口試日期 2020-07-01
論文頁數 42頁
口試委員 指導教授 - 陳景祥(steve@home.com.tw)
共同指導教授 - 張雅梅(140248@mail.tku.edu.tw)
委員 - 何宗武(tsungwu@gapps.ntnu.edu.t)
委員 - 鄧文舜(121350@mail.tku.edu.tw)
關鍵字(中) 分類
過抽樣
欠抽樣
隨機森林
加權隨機森林
k-prototypes分群
關鍵字(英) classification
oversampling
undersampling
random forest
weighted random forest
k-prototypes clustering
第三語言關鍵字
學科別分類
中文摘要
分類預測在資料探勘領域是相當常見的一種議題,隨機森林在分類預測時經常有優異的表現。本研究基於一般隨機森林,透過給予隨機森林中的決策樹權重,提高其分類預測效果,該方法稱為加權隨機森林。而在賦予權重時,透過分群技術簡化權重的複雜性,進而提高加權隨機森林的不穩定性,該方法稱為二階段加權隨機森林。
本研究中,比較汽車保險資料在不同隨機森林的預測效果,而該資料存在不平衡分類問題,使用抽樣技術改善其預測效果,並透過模擬資料比較不同程度的不平衡分類下,各權重在加權隨機森林的預測效果。本研究所使用的汽車保險資料中,將加權隨機森林模型透過抽樣技術改善不平衡分類資料後,再加上分群技術,完成二階段加權隨機森林模型。
英文摘要
Classification prediction is a very common topic in the field of data mining. Based on the random forest, this study improves the classification and prediction effect by giving weights to decision trees in the random forest. This method is called weighted random forest. When the weights are assigned, the complexity of the weights is simplified through the clustering technique, and then the instability of the weighted random forest is reduced. This method is called two-step weighted random forest.
In this study, the prediction effects of car insurance data by different random forests are compared, and the data had imbalanced classification problem. Sampling technology was used to improve the prediction effect, and simulation data were used to compare the prediction effects of each weight in the weighted random forest under different degrees of imbalanced classification. In the car insurance data used in this research, the weighted random forest model is improved by sampling technique to the imbalanced classification data, and then the clustering technique is added to complete the two-stage weighted random forest model.
第三語言摘要
論文目次
第一章	緒論	1
第一節	前言	1
第二節	研究動機與目的	2
第三節	論文結構	3
第二章	文獻探討	4
第一節	CART決策樹	4
第二節	隨機森林(Random Forest)	6
第三節	k-prototypes分群演算法	8
第四節	評估指標	9
2.4.1	準確度(Accuracy)	9
2.4.2	召回率(Recall)	10
2.4.3	精確度(Precision)	10
2.4.4	F1指標	11
2.4.5	AUC指標	11
2.4.6	Kappa指標	11
第五節	不平衡分類	12
2.5.1	欠抽樣	12
2.5.2	過抽樣	13
第三章	研究方法	14
第一節	加權隨機森林(Weighted Random Rorest)	14
3.1.1	加權方式	14
3.1.2	權重選取方式	15
3.1.3	加權隨機森林流程	17
第二節	二階段加權隨機森林	18
3.2.1	二階段分群方法	18
3.2.2	二階段分群範例	18
3.2.3	二階段加權隨機森林流程	20
第四章	模擬與實例分析	21
第一節	模擬	21
4.1.1	反應變數分類比例不同	21
4.1.2	模擬不同不平衡資料抽樣技術結果	29
第二節	實例分析	34
4.2.1	資料背景介紹	34
4.2.2	變數介紹	35
4.2.3	分類方法說明	36
4.2.4	分類結果	36
第五章	結論	40
參考文獻	41
中文文獻	41
英文文獻	41
圖1.1 研究流程圖	3
圖2.1 隨機森林示意圖	7
圖3.1 加權隨機森林示意圖	17
圖3.2 鳶尾花資料決策樹範例圖	19
表2.1 混淆矩陣	9
表3.1 權重對照表	16
表3.2 鳶尾花資料分群依據變數	20
表4.1 線性方式模擬反應變數分類比例50%	23
表4.2 線性方式模擬反應變數分類比例35%	24
表4.3 線性方式模擬反應變數分類比例20%	25
表4.4 邏輯斯迴歸方式模擬反應變數分類比例50%	26
表4.5 邏輯斯迴歸方式模擬反應變數分類比例35%	27
表4.6 邏輯斯迴歸方式模擬反應變數分類比例20%	28
表4.7 線性模擬(欠抽樣)	30
表4.8 線性模擬(過抽樣)	31
表4.9 邏輯斯迴歸模擬(欠抽樣)	32
表4.10 邏輯斯迴歸模擬(過抽樣)	33
表4.11 變數對照表	35
表4.12 加權隨機森林實例分析結果	38
表4.13 二階段加權隨機森林實例分析結果	39
參考文獻
黃冠傑,2019。多標籤分類方法應用於PTT資料,淡江大學統計學系應用統計學碩士班碩士論文。
郭珉辰,2019。資料探勘技術在信用卡不平衡資料上之應用,淡江大學大數據分析與商業智慧碩士學位學程碩士論文。
Breiman, L. 2001. Random Forests. Machine Learning, 45, 5-32.
Huang, Z. 1997. Clustering Large Data Sets With Mixed Numeric And Categorical Values, Advanced Computational Systems (ACSys) established under the Australian Government’s Cooperative Research Centres Program.
Kaur, P., & Gosain, A. 2018. Comparing the Behavior of Oversampling and Undersampling Approach of Class Imbalance Learning by Combining Class Imbalance Problem with Noise. ICT Based Innovations, Advances in Intelligent Systems and Computing 653.
Li, H.B., Wang, W., Ding, H., & Dong, J. 2010. Trees Weighting Random Forest Method for Classifying High-Dimensional Noisy Data. 2010 IEEE 7th International Conference on E-Business Engineering, 160-163.
Szepannek, G. 2018. clustMixType: User-Friendly Clustering of Mixed-Type Data in R. R J., 10, 200.
Winham, S.J., Colby, C.L., Freimuth, R.R., Wang, X., Andrade, M.D., Huebner, M., & Biernacka, J.M. 2011. SNP interaction detection with Random Forests in high dimensional genetic data. BMC Bioinformatics, 13, 164.
Winham, S.J., Freimuth, R.R., & Biernacka, J.M. 2013. A weighted random forests approach to improve predictive performance. Statistical analysis and data mining, 66, 496-505 .
Zhou, L., & Wang, H. 2012. Loan Default Prediction on Large Imbalanced Data Using Random Forests. Indonesian Journal of Electrical Engineering and Computer Science, 10, 1519-1525.
論文全文使用權限
校內
校內紙本論文立即公開
同意電子論文全文授權校園內公開
校內電子論文立即公開
校外
同意授權
校外電子論文立即公開

如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信