淡江大學覺生紀念圖書館 (TKU Library)
進階搜尋


下載電子全文限經由淡江IP使用) 
系統識別號 U0002-1608201916275000
中文論文名稱 探討運用kernel轉換對不平衡資料的分類模型建立與效用
英文論文名稱 Build imbalanced classifier via kernel trick and evaluate its effect
校院名稱 淡江大學
系所名稱(中) 數學學系數學與數據科學碩士班
系所名稱(英) Master's Program, Department of Mathematics
學年度 107
學期 2
出版年 108
研究生中文姓名 林湋翔
研究生英文姓名 Wei-Hsiang Lin
學號 606190162
學位類別 碩士
語文別 中文
口試日期 2019-07-12
論文頁數 31頁
口試委員 指導教授-王彥雯
委員-黃逸輝
委員-李美賢
中文關鍵字 二元分類  不平衡資料  kernel method 
英文關鍵字 Kernel method  Imbalanced data  Binary classification 
學科別分類
中文摘要 在分類的問題上,現實生活中某些特定的情況下往往會有不平衡的資料(imbalanced data)產生。不平衡資料指的是多數的組別(major group)的樣本數量會遠遠超過少數的組別(minor group)的樣本數量,在以整體正確率為考量的分類模型上會使得分類器建立時天平永遠會傾向多數那一組,因為此情況下可獲得最佳的整體正確率,但往往少數組才是我們所最關心的問題點。因此,如何建立不平衡資料的分類模型,讓其可以確保少數組別的分類準確性是一大挑戰。近幾年有些學者提出利用kernel method的技巧將資料從原始空間轉換到新的空間中,並在新的空間進行資料處理與模型建構,而這類型的方法似乎有不錯的成效。因此,本研究將利用模擬的方法探討kernel method對不同幾何特性的不平衡資料在分類模型建構上的影響,同時也依此建立不平衡資料的分類器
英文摘要 Recently, class-imbalanced data are common in real applications. Class imbalance means the sample size of one class is much more than other class. Traditional classification methods usually focus on optimizing overall accuracy resulting in high accuracy of the major class but low accuracy of the minor class. Hence, how to build a suitable classifier becomes an important learning problem. Recently, many imblanced classification methods were proposed and some of them used kernel transformation resulting in good performance. In this study, we will evaluate the effect of classifiers by using different kernel transformation for different datasets and establish an imbalanced classifier.
論文目次
目錄
第一章 前言 1
第二章 研究方法 4
第一節 Meta Imbalanced Classification Ensemble (MICE) 4
第二節 核方法(kernel method) 4
第三節 Two stage k-means 6
第四節 LASSO 6
第五節 演算法 7
第三章 模擬試驗 9
第一節 資料生成方式 10
第二節 實驗結果 13
第一項 Dataset(1) 13
第二項 Dataset(2) 15
第三項 Dataset(3) 15
第四項 Dataset(4) 16
第五項 Dataset(5) 17
第六項 Dataset(6) 17
第五章 結論與討論 23
附錄 27

表目錄
圖 三-1 2x2列連表 9
圖 三-2 N=100:1000 1000次模擬實驗結果之平均值(標準差) 19
圖 三-3 N=100:1000資料集中不同kernel的Paired t-test之p-value 20
圖 三-4 N=100:5000 1000次模擬實驗結果之平均值(標準差) 21
圖 三-5 N=100:5000資料集中不同kernel的Paired t-test之p-value 22

圖目錄
圖 二-1 空間轉換示意圖 5
圖 二-2 演算法 8
圖 三-1 六種資料集示意圖 12


參考文獻 參考文獻
1.Chen, B., Tai, P. C., Harrison, R., & Pan, Y. (2005, August). Novel hybrid hierarchical-K-means clustering method (HK-means) for microarray analysis. In 2005 IEEE Computational Systems Bioinformatics Conference-Workshops (CSBW'05) (pp. 105-108).

2.Gelman, A., Jakulin, A., Pittau, M. G., & Su, Y. S. (2008). A weakly informative default prior distribution for logistic and other regression models. The Annals of Applied Statistics, 2(4), 1360-1383.

3.Jebara, T., Kondor, R., & Howard, A. (2004). Probability product kernels. Journal of Machine Learning Research, 5(Jul), 819-844.

4.Krawczyk, B. (2016). Learning from imbalanced data: open challenges and future directions. Progress in Artificial Intelligence, 5(4), 221-232.

5.López, V., Fernández, A., García, S., Palade, V., & Herrera, F. (2013). An insight into classification with imbalanced data: Empirical results and current trends on using data intrinsic characteristics. Information sciences, 250, 113-141.

6.Longadge, R., & Dongre, S. (2013). Class imbalance problem in data mining review. arXiv preprint arXiv:1305.1707.

7.Lin, S. C., Yuan-chin, I. C., & Yang, W. N. (2009). Meta-learning for imbalanced data and classification ensemble in binary classification. Neurocomputing, 73(1-3), 484-494.

8.Maratea, A., Petrosino, A., & Manzo, M. (2014). Adjusted F-measure and kernel scaling for imbalanced data learning. Information Sciences, 257, 331-341.

9.Milligan, G. W., & Sokol, L. M. (1980). A two-stage clustering algorithm with robust recovery characteristics. Educational and psychological measurement, 40(3), 755-759

10.Prati, R. C., Batista, G. E., & Silva, D. F. (2015).
Class imbalance revisited: a new experimental setup to assess the performance of treatment methods. Knowledge and Information Systems, 45(1), 247-270.

11.Sun, Y., Wong, A. K., & Kamel, M. S. (2009). Classification of imbalanced data: A review. International Journal of Pattern Recognition and Artificial Intelligence, 23(04), 687-719.

12.Zeng, Z., & Zhu, S. (2013, January). A kernel-based sampling to train SVM with imbalanced data set. In IEEE Conference Anthology (pp. 1-5).
論文使用權限
  • 同意紙本無償授權給館內讀者為學術之目的重製使用,於2019-08-29公開。
  • 同意授權瀏覽/列印電子全文服務,於2019-08-29起公開。


  • 若您有任何疑問,請與我們聯絡!
    圖書館: 請來電 (02)2621-5656 轉 2486 或 來信