§ 瀏覽學位論文書目資料
  
系統識別號 U0002-2307201817440900
DOI 10.6846/TKU.2018.00698
論文名稱(中文) 結合LogitBoost與AUC之主動學習分類演算法
論文名稱(英文) An AUC-based Active Learning Algorithm via LogitBoost for Binary Classification
第三語言論文名稱
校院名稱 淡江大學
系所名稱(中文) 數學學系數學與數據科學碩士班
系所名稱(英文) Master's Program, Department of Mathematics
外國學位學校名稱
外國學位學院名稱
外國學位研究所名稱
學年度 106
學期 2
出版年 107
研究生(中文) 張哲彬
研究生(英文) Zhe-Bin Zhang
學號 605190189
學位類別 碩士
語言別 繁體中文
第二語言別 英文
口試日期 2018-06-26
論文頁數 58頁
口試委員 指導教授 - 王彥雯
委員 - 黃逸輝
委員 - 李美賢
關鍵字(中) 主動學習
二類分類
Boosting
AUC(area under the ROC curve)
關鍵字(英) Active learning
Boosting
Area under the ROC curve(AUC)
Binary classification
第三語言關鍵字
學科別分類
中文摘要
在某些實際應用的問題中,有時候會面臨標記資料的取得成本相當昂貴,但為了不因樣本數較少而影響所建立的分析模型的表現,往往會同時採用訓練集中已標記和未標記的樣本來建立模型,透過增加模型建構的樣本數方式,以獲得較好的模型表現,而半監督學(semi-supervised learning)正是在此情境下被廣泛應用的策略,這類型的方法通常都是使用少量帶有標籤的樣本與大量未標記的樣本來訓練分類器。主動學習(active learning)是半監督式學習方法的一種,在分類器建立的過程中,一開始僅使用少量已知標籤的樣本來建立模型,之後透過適當的篩選方法,挑出對模型建構有幫助的未知標籤樣本,並利用即時查詢或詢問專家的方式來獲取新樣本的標籤,這類型的方法能夠降低分析資料取得標記類別的成本,非常適合用於處理標記所有樣本需要付出高昂代價的情境,如:洗錢帳戶的辨識、疾病診斷、基因資料的分析等。此外,Boosting演算法是ensemble learning 的一種,透過將數個弱分類器整合成一個強分類器的方式,用以獲得較好的分類模型,這類型的方法可以減少監督式學習中的偏差和變異。AUC (area under the ROC curve)代表的是ROC曲線下的面積,此指標被廣泛使用於評估分類器預測性能的表現。在本研究中,我們提出了一種針對二類分類問題的主動學習演算法,此方法結合Boosting的概念,並利用 AUC 挑選新樣本與作為boosting演算法中的權重。從模擬結果與實際資料分析來看,本研究所提出之方法可以採用較少樣樣本來建立模型,並實現較好的預測性能。
英文摘要
Because obtaining complete labeled data is quite expensively, we proposed an active learning algorithm to solve this problem. The proposed active learning algorithm includes two major parts. First, we use the AUC (area under ROC curve) as criteria to select new unlabeled sample, which will be added into the training set, and then the classifier will be re-trained in the next step. Second, we use the LogitBoost algorithm as the base classifier and modifie the weighs based on AUC resulting form considering predictive power as the goal. Moreover, when the data are large, it will take too much time to search all unlabeled samples and to find the most contributive one. Therefore, we use cluster analysis to reduce the samples firstly, then the proposed active learning algorithm is applied. The simulation results present that the proposed algorithm uses fewer samples and still can provide acceptable predictive performance. Three real applications were also used to evaluate the performance of the proposed method.
第三語言摘要
論文目次
目錄
第一章 前言	1
第一節 主動學習(Active Learning)	1
第二節 Boosting	3
第三節 Area under ROC Curve	6
第四節 群聚分析(Cluster Analysis)	8
第五節 研究目的	10
第二章 研究方法	11
第一節 分類模型	11
第二節 新樣本點之選取	13
第三節 AUC-based Active Learning via LogitBoost (AALB)演算法	14
第三章 模擬試驗	16
第四章 實例分析	21
第一節 Wine Quality Data Set	21
第二節 Ionosphere Data Set	25
第三節 Credit Card Fraud Detection	30
第五章 結論與討論	42
第六章 參考文獻	44
第七章 附錄	45

表目錄
表1- 1 關於計算TPR與FPR列聯表	6
表3- 1 模擬資料訓練集中四種方法在500次交叉驗證下的平均AUC值與其標準誤………………………………………………………………………………	17
表3- 2 模擬資料測試集中四種方法在500次交叉驗證下的平均AUC值與其標準誤………………………………………………………………………………	18
表 4-1- 1 WINE QUALITY DATA SET訓練集中四種方法在100次交叉驗證下的平均AUC值與其標準誤……………………………………………………………	22
表 4-1- 2 WINE QUALITY DATA SET測試集中四種方法在100次交叉驗證下的平均AUC值與其標準誤……………………………………………………………	23
表4-2- 1 電離層數據訓練集中四種方法在100次交叉驗證下的平均AUC值與其標準誤………………………………………………………………………….	26
表4-2- 2 電離層數據測試集中四種方法在100次交叉驗證下的平均AUC值與其標準誤………………………………………………………………………….	28
表4-3-1- 1 信用卡欺詐資料訓練集中四種方法在100次交叉驗證下的平均AUC值與其標準誤(分析策略一)……………………………………………….	31
表4-3-1- 2 信用卡欺詐資料測試集中四種方法在100次交叉驗證下的平均AUC值與其標準誤(分析策略一)……………………………………………….	32
表4-3-2- 1 信用卡欺詐資料訓練集中四種方法在100次交叉驗證下的平均AUC值與其標準誤(分析策略二)………………………………………………	35
表4-3-2- 2信用卡欺詐資料測試集中四種方法在100次交叉驗證下的平均AUC值與其標準誤(分析策略二)……………………………………………….	36
表 4-3-3- 1 AALB與K-MEANS先將未標籤資料分群的平均CPU運算時間與其標準誤…………………………………………………………………………….	38
表 4-3-3- 2 信用卡欺詐資料訓練集中四種方法在100次交叉驗證下的平均AUC值與其標準誤(分析策略三)………………………………………………	39
表 4-3-3- 3 信用卡欺詐資料測試集中四種方法在100次交叉驗證下的平均AUC值與其標準誤(分析策略三)……………………………………………….	40
 
圖目錄
圖1- 1 ROC曲線示意圖	7
圖3- 1 模擬資料訓練集中四種方法在500次模擬實驗中隨著迭代次數的變化的平均AUC值及其標準誤……………………………………………………..	17
圖3- 2 模擬資料測試集中四種方法在500次模擬實驗中隨著迭代次數的變化的平均AUC值及其標準誤……………………………………………………..	18
圖3- 3 模擬資料訓練集中四種方法在500次模擬實驗中隨著迭代次數的變化的平均錯誤率及其標準誤……………………………………………………….	19
圖3- 4 模擬資料測試集中四種方法在500次模擬實驗中隨著迭代次數的變化的平均錯誤率及其標準誤……………………………………………………….	20
圖4-1- 1 WINE QUALITY DATA SET訓練集中四種方法在100次交叉驗證下隨著迭代次數變化的平均AUC值及其標準誤……………………………………..	22
圖4-1- 2 WINE QUALITY DATA SET測試集中四種方法在100次交叉驗證下隨著迭代次數變化的平均AUC值及其標準誤……………………………………..	23
圖4-1- 3 WINE QUALITY DATA SET訓練集中四種方法在100次交叉驗證下隨著迭代次數變化的平均錯誤率及其標準誤……………………………………..	24
圖4-1- 4 WINE QUALITY DATA SET測試集中四種方法在100次交叉驗證下隨著迭代次數變化的平均錯誤率及其標準誤……………………………………..	25
圖 4-2- 1電離層數據訓練集中四種方法在100次交叉驗證下隨著迭代次數變化的平均AUC值及其標準誤…………………………………………………...	27
圖 4-2- 2 電離層數據測試集中四種方法在100次交叉驗證下隨著迭代次數變化的平均AUC值及其標準誤…………………………………………………..	28
圖 4-2- 3電離層數據訓練集中四種方法在100次交叉驗證下隨著迭代次數變化的平均錯誤率及其標準誤…………………………………………………….	29
圖 4-2- 4電離層數據測試集中四種方法在100次交叉驗證下隨著迭代次數變化的平均錯誤率及其標準誤…………………………………………………….29
圖 4-3-1- 1 信用卡欺詐資料訓練集中四種方法在100次模擬實驗中隨著迭代次數的變化的平均AUC值及其標準誤(分析策略一)……………………...	31
圖 4-3-1- 2信用卡欺詐資料測試集中四種方法在100次模擬實驗中隨著迭代次數的變化的平均AUC值及其標準誤(分析策略一)……………………	33
圖 4-3-1- 3 信用卡欺詐資料訓練集中四種方法在100次模擬實驗中隨著迭代次數的變化的平均錯誤率及其標準誤(分析策略一)……………………….	33
圖 4-3-1- 4 信用卡欺詐資料測試集中四種方法在100次模擬實驗中隨著迭代次數的變化的平均錯誤率及其標準誤(分析策略一)……………………….	34
圖 4-3-2- 1 信用卡欺詐資料訓練集中四種方法在100次模擬實驗中隨著迭代次數的變化的平均AUC值及其標準誤(分析策略二)……………………...	35
圖 4-3-2- 2信用卡欺詐資料測試集中四種方法在100次模擬實驗中隨著迭代次數的變化的平均AUC值及其標準誤(分析策略二)……………………...	36
圖 4-3-2- 3 信用卡欺詐資料訓練集中四種方法在100次模擬實驗中隨著迭代次數的變化的平均錯誤率及其標準誤(分析策略二)……………………...	37
圖 4-3-2- 4 信用卡欺詐資料測試集中四種方法在100次模擬實驗中隨著迭代次數的變化的平均錯誤率及其標準誤(分析策略二)……………………...	37
圖4-3-3- 1 信用卡欺詐資料訓練集中四種方法在100次模擬實驗中隨著迭代次數的變化的平均AUC值及其標準誤(分析策略三)	39
圖4-3-3- 2 信用卡欺詐資料測試集中四種方法在100次模擬實驗中隨著迭代次數的變化的平均AUC值及其標準誤(分析策略三)	40
圖4-3-3- 3 信用卡欺詐資料訓練集中四種方法在100次模擬實驗中隨著迭代次數的變化的平均錯誤率及其標準誤(分析策略三)	41
圖4-3-3- 4 信用卡欺詐資料測試集中四種方法在100次模擬實驗中隨著迭代次數的變化的平均錯誤率及其標準誤(分析策略三)	41
圖 附錄 1 模擬資料訓練集中四種方法在500次模擬實驗中隨著迭代次數的變化的平均TPR值及其標準誤………………………………………………...	45
圖 附錄 2模擬資料測試集中四種方法在500次模擬實驗中隨著迭代次數的變化的平均TPR值及其標準誤…………………………………………………...	45
圖 附錄 3 模擬資料訓練集中四種方法在500次模擬實驗中隨著迭代次數的變化的平均FPR值及其標準誤………………………………………………...	46
圖 附錄 4模擬資料測試集中四種方法在500次模擬實驗中隨著迭代次數的變化的平均FPR值及其標準誤…………………………………………………...	46
圖 附錄 5 WINE QUALITY DATA SET訓練集中四種方法在100次模擬實驗中隨著迭代次數的變化的平均TPR值及其標準誤………………………………...	47
圖 附錄 6 WINE QUALITY DATA SET測試集中四種方法在100次模擬實驗中隨著迭代次數的變化的平均TPR值及其標準誤………………………………...	47
圖 附錄 7 WINE QUALITY DATA SET訓練集中四種方法在100次模擬實驗中隨著迭代次數的變化的平均FPR值及其標準誤………………………………...	48
圖 附錄 8 WINE QUALITY DATA SET測試集中四種方法在100次模擬實驗中隨著迭代次數的變化的平均FPR值及其標準誤………………………………...	48
圖 附錄 9 電離層數據訓練集中四種方法在100次模擬實驗中隨著迭代次數的變化的平均TPR值及其標準誤……………………………………………...	49
圖 附錄 10 電離層數據測試集中四種方法在100次模擬實驗中隨著迭代次數的變化的平均TPR值及其標準誤……………………………………………...	49
圖 附錄 11 電離層數據訓練集中四種方法在100次模擬實驗中隨著迭代次數的變化的平均FPR值及其標準誤……………………………………………...	50
圖 附錄 12 電離層數據測試集中四種方法在100次模擬實驗中隨著迭代次數的變化的平均FPR值及其標準誤……………………………………………...	50
圖 附錄 13 信用卡欺詐資料訓練集中四種方法在100次模擬實驗中隨著迭代次數的變化的平均TPR值及其標準誤(分析策略一)……………………..	51
圖 附錄 14 信用卡欺詐資料測試集中四種方法在100次模擬實驗中隨著迭代次數的變化的平均TPR值及其標準誤(分析策略一)……………………..	51
圖 附錄 15 信用卡欺詐資料訓練集中四種方法在100次模擬實驗中隨著迭代次數的變化的平均FPR值及其標準誤(分析策略一)……………………..	52
圖 附錄 16 信用卡欺詐資料測試集中四種方法在100次模擬實驗中隨著迭代次數的變化的平均FPR值及其標準誤(分析策略一)…………………….	52
圖 附錄 17 信用卡欺詐資料訓練集中四種方法在100次模擬實驗中隨著迭代次數的變化的平均TPR值及其標準誤(分析策略二)…………………….	53
圖 附錄 18 信用卡欺詐資料測試集中四種方法在100次模擬實驗中隨著迭代次數的變化的平均TPR值及其標準誤(分析策略二)…………………….	53
圖 附錄 19 信用卡欺詐資料訓練集中四種方法在100次模擬實驗中隨著迭代次數的變化的平均FPR值及其標準誤(分析策略二)…………………….	54
圖 附錄 20 信用卡欺詐資料測試集中四種方法在100次模擬實驗中隨著迭代次數的變化的平均FPR值及其標準誤(分析策略二)…………………….	54
圖 附錄 21 信用卡欺詐資料訓練集中四種方法在100次模擬實驗中隨著迭代次數的變化的平均TPR值及其標準誤(分析策略三)…………………….	55
圖 附錄 22 信用卡欺詐資料測試集中四種方法在100次模擬實驗中隨著迭代次數的變化的平均TPR值及其標準誤(分析策略三)…………………….	55
圖 附錄 23 信用卡欺詐資料訓練集中四種方法在100次模擬實驗中隨著迭代次數的變化的平均FPR值及其標準誤(分析策略三)…………………….	56
圖 附錄 24 信用卡欺詐資料測試集中四種方法在100次模擬實驗中隨著迭代次數的變化的平均FPR值及其標準誤(分析策略三)…………………….	56
圖 附錄 26 信用卡欺詐資料訓練集中四種方法在50次模擬實驗中隨著迭代次數的變化的平均TPR值及其標準誤(分析策略三)…………………….	57
圖 附錄 26 信用卡欺詐資料測試集中四種方法在50次模擬實驗中隨著迭代次數的變化的平均TPR值及其標準誤(分析策略三)…………………….	57
圖 附錄 27 信用卡欺詐資料訓練集中四種方法在50次模擬實驗中隨著迭代次數的變化的平均FPR值及其標準誤(分析策略三)……………………..	58
圖 附錄 28 信用卡欺詐資料測試集中四種方法在50次模擬實驗中隨著迭代次數的變化的平均FPR值及其標準誤(分析策略三)……………………..	58
參考文獻
Culver, M., Kun, D., & Scott, S. (2006). Active learning to maximize area under the ROC curve. In Data Mining, 2006. ICDM'06. Sixth International Conference on (pp. 149-158). IEEE.

Freund, Y., & Schapire, R. E. (1997). A decision-theoretic generalization of on-line learning and an application to boosting. Journal of computer and system sciences, 55(1), 119-139.

Friedman, J., Hastie, T., & Tibshirani, R. (2000). Additive logistic regression: a statistical view of boosting (with discussion and a rejoinder by the authors). The annals of statistics, 28(2), 337-407.

Hamerly, G., & Elkan, C. (2002). Alternatives to the k-means algorithm that find better clusterings. In Proceedings of the eleventh international conference on Information and knowledge management (pp. 600-607). ACM.

MacKay, D. J., & Mac Kay, D. J. (2003). Information theory, inference and learning algorithms. Cambridge university press.

Schapire, R. E., & Singer, Y. (1999). Improved boosting algorithms using confidence-rated predictions. Machine learning, 37(3), 297-336.

Schnitzer, S., Schmidt, S., Rensing, C., & Harriehausen-Miihlbauer, B. (2014). Combining active and ensemble learning for efficient classification of web documents. Polibits, (49), 39-46.

Stokes, J. W., Platt, J. C., Shilman, M., & Kravis, J. L. (2009). U.S. Patent Application No. 11/871,587.

Zhu, J., Wang, H., & Hovy, E. (2008). Learning a stopping criterion for active learning for word sense disambiguation and text classification. In Proceedings of the Third International Joint Conference on Natural Language Processing: Volume-I.
論文全文使用權限
校內
紙本論文於授權書繳交後3年公開
同意電子論文全文授權校園內公開
校內電子論文於授權書繳交後3年公開
校外
同意授權
校外電子論文於授權書繳交後3年公開

如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信