§ 瀏覽學位論文書目資料
  
系統識別號 U0002-1608201916275000
DOI 10.6846/TKU.2019.00456
論文名稱(中文) 探討運用kernel轉換對不平衡資料的分類模型建立與效用
論文名稱(英文) Build imbalanced classifier via kernel trick and evaluate its effect
第三語言論文名稱
校院名稱 淡江大學
系所名稱(中文) 數學學系數學與數據科學碩士班
系所名稱(英文) Master's Program, Department of Mathematics
外國學位學校名稱
外國學位學院名稱
外國學位研究所名稱
學年度 107
學期 2
出版年 108
研究生(中文) 林湋翔
研究生(英文) Wei-Hsiang Lin
學號 606190162
學位類別 碩士
語言別 繁體中文
第二語言別
口試日期 2019-07-12
論文頁數 31頁
口試委員 指導教授 - 王彥雯
委員 - 黃逸輝
委員 - 李美賢
關鍵字(中) 二元分類
不平衡資料
kernel method
關鍵字(英) Kernel method
Imbalanced data
Binary classification
第三語言關鍵字
學科別分類
中文摘要
在分類的問題上,現實生活中某些特定的情況下往往會有不平衡的資料(imbalanced data)產生。不平衡資料指的是多數的組別(major group)的樣本數量會遠遠超過少數的組別(minor group)的樣本數量,在以整體正確率為考量的分類模型上會使得分類器建立時天平永遠會傾向多數那一組,因為此情況下可獲得最佳的整體正確率,但往往少數組才是我們所最關心的問題點。因此,如何建立不平衡資料的分類模型,讓其可以確保少數組別的分類準確性是一大挑戰。近幾年有些學者提出利用kernel method的技巧將資料從原始空間轉換到新的空間中,並在新的空間進行資料處理與模型建構,而這類型的方法似乎有不錯的成效。因此,本研究將利用模擬的方法探討kernel method對不同幾何特性的不平衡資料在分類模型建構上的影響,同時也依此建立不平衡資料的分類器
英文摘要
Recently, class-imbalanced data are common in real applications. Class imbalance means the sample size of one class is much more than other class. Traditional classification methods usually focus on optimizing overall accuracy resulting in high accuracy of the major class but low accuracy of the minor class. Hence, how to build a suitable classifier becomes an important learning problem. Recently, many imblanced classification methods were proposed and some of them used kernel transformation resulting in good performance. In this study, we will evaluate the effect of classifiers by using different kernel transformation for different datasets and establish an imbalanced classifier.
第三語言摘要
論文目次
目錄
第一章	前言	1
第二章	研究方法	4
第一節 Meta Imbalanced Classification Ensemble (MICE)	4
第二節 核方法(kernel method)	4
第三節 Two stage k-means	6
第四節 LASSO	6
第五節	演算法	7
第三章 模擬試驗	9
第一節	資料生成方式	10
第二節 實驗結果	13
	第一項 Dataset(1)	13
	第二項 Dataset(2)	15
	第三項 Dataset(3)	15
	第四項 Dataset(4)	16
	第五項 Dataset(5)	17
	第六項 Dataset(6)	17
	第五章 結論與討論	23
	附錄	27

表目錄
圖 三-1 	2x2列連表	9
圖 三-2 	N=100:1000 1000次模擬實驗結果之平均值(標準差)	19
圖 三-3 	N=100:1000資料集中不同kernel的Paired t-test之p-value	20
圖 三-4 	N=100:5000 1000次模擬實驗結果之平均值(標準差)	21
圖 三-5 	N=100:5000資料集中不同kernel的Paired t-test之p-value	22

圖目錄
圖 二-1 空間轉換示意圖	5
圖 二-2 演算法	8
圖 三-1 六種資料集示意圖	12
參考文獻
參考文獻
1.Chen, B., Tai, P. C., Harrison, R., & Pan, Y. (2005, August). Novel hybrid hierarchical-K-means clustering method (HK-means) for microarray analysis. In 2005 IEEE Computational Systems Bioinformatics Conference-Workshops (CSBW'05) (pp. 105-108).

2.Gelman, A., Jakulin, A., Pittau, M. G., & Su, Y. S. (2008). A weakly informative default prior distribution for logistic and other regression models. The Annals of Applied Statistics, 2(4), 1360-1383.

3.Jebara, T., Kondor, R., & Howard, A. (2004). Probability product kernels. Journal of Machine Learning Research, 5(Jul), 819-844.

4.Krawczyk, B. (2016). Learning from imbalanced data: open challenges and future directions. Progress in Artificial Intelligence, 5(4), 221-232.

5.López, V., Fernández, A., García, S., Palade, V., & Herrera, F. (2013). An insight into classification with imbalanced data: Empirical results and current trends on using data intrinsic characteristics. Information sciences, 250, 113-141.

6.Longadge, R., & Dongre, S. (2013). Class imbalance problem in data mining review. arXiv preprint arXiv:1305.1707.

7.Lin, S. C., Yuan-chin, I. C., & Yang, W. N. (2009). Meta-learning for imbalanced data and classification ensemble in binary classification. Neurocomputing, 73(1-3), 484-494.

8.Maratea, A., Petrosino, A., & Manzo, M. (2014). Adjusted F-measure and kernel scaling for imbalanced data learning. Information Sciences, 257, 331-341.

9.Milligan, G. W., & Sokol, L. M. (1980). A two-stage clustering algorithm with robust recovery characteristics. Educational and psychological measurement, 40(3), 755-759

10.Prati, R. C., Batista, G. E., & Silva, D. F. (2015). 
Class imbalance revisited: a new experimental setup to assess the performance of treatment methods. Knowledge and Information Systems, 45(1), 247-270.

11.Sun, Y., Wong, A. K., & Kamel, M. S. (2009). Classification of imbalanced data: A review. International Journal of Pattern Recognition and Artificial Intelligence, 23(04), 687-719.

12.Zeng, Z., & Zhu, S. (2013, January). A kernel-based sampling to train SVM with imbalanced data set. In IEEE Conference Anthology (pp. 1-5).
論文全文使用權限
校內
校內紙本論文立即公開
同意電子論文全文授權校園內公開
校內電子論文立即公開
校外
同意授權
校外電子論文立即公開

如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信