淡江大學覺生紀念圖書館 (TKU Library)
進階搜尋


下載電子全文限經由淡江IP使用) 
系統識別號 U0002-1508201711314900
中文論文名稱 高維度不平衡資料演算法之變數篩選
英文論文名稱 Variable selection for imbalanced learning from high-dimensional datasets
校院名稱 淡江大學
系所名稱(中) 數學學系碩士班
系所名稱(英) Department of Mathematics
學年度 105
學期 2
出版年 106
研究生中文姓名 俞允晨
研究生英文姓名 Yun Chen Yu
學號 605190080
學位類別 碩士
語文別 中文
口試日期 2017-07-14
論文頁數 38頁
口試委員 指導教授-王彥雯
委員-吳漢銘
委員-溫啟仲
中文關鍵字 高維度不平衡資料  二元分類  變數篩選 
英文關鍵字 High-dimensional imbalanced data  Binary classification  Variable selection 
學科別分類 學科別自然科學數學
中文摘要 在針對二元分類的問題上,常會面臨不平衡資料(imbalanced data)的處理,此類問題的分類模型建構的挑戰在於,某個類別樣本數遠遠超過另一個類別,意即類別樣本的分佈呈現偏斜狀況(skewed class distribution),使得傳統的分類器在建置的過程往往傾向將樣本佔多數的類別(major class)分類正確而忽略樣本佔少數的類別(minor class),如此一來雖然提高了分類器整體的正確率,但卻降低了針對少數類別的分類敏感度(sensitivity)。此外,現今由於資訊技術的進步,資料在取得與儲存的困難度大幅降低,在實際應用問題上則常面臨資料維度過高,使得資料分析有一定的困難度,特別是在高維度類別不平衡資料的分類問題上,大量的變數當中夾雜多數不具分類區辨效果的變數,也就是雜訊(noise),再加上不平衡資料的特性,使得分類器在訓練時往往會產生偏誤,導致其對少數類別有相當低的預測準確率。因此,為了解決高維度類別不平衡資料的分類問題,本研究將利用Kolmogorov–Smirnov statistic先進行具分類區辨力變數之篩選,再以Lin et al. (2009) 針對不平衡資料所提出之Meta Imbalance Classification Ensemble (MICE) 演算法為基礎,加入1-norm限制式(1-norm constrain)篩選分類效果較佳之子分類器(sub-classifiers)整合成最終的分類模型,進行類別預測。實驗結果顯示,所提出之方法針對少數類別具有較好之敏感度(Sensitivity),且當維度高時,需先將雜訊變數刪除才有利於分類模型之建構,獲得較好之分類表現。
英文摘要 Class imbalance problem in binary classification is a challenge for establishing an excellent learning algorithm. When the data with skewed class distributions, that is, the sample size of one class is much more than the other class, the traditional learning algorithms tend to assign correct labels for the majority group and ignore to assign correct labels for minority group in order to gain higher overall accuracy of the classifier. But, this kind of learning algorithms will reduce the sensitivity for the minority group. In addition, with the advance in information technology, researchers are able to collect and store large-scale data. However, in practice, it is difficult to carry out large-scale data due to the high dimensionality. In high-dimensional imbalanced classification problems, the classifiers with large non-distinguished variables (noise variables) will be biased and result in lower prediction accuracy for the minority group. Hence, we proposed two algorithms combining a variable selection process based on Kolmogorov–Smirnov statistic with a modification of MICE algorithm (Lin et al., 2009) to analyze high-dimensional imbalanced data. The simulation results show that the proposed method has higher sensitivity for the minority group. When the dimension is high, it is necessary to remove the noise variables before the construction of the classification model and it will obtain better performance of the classifier. Finally, a lung cancer dataset is used to evaluate the performance of the proposed methods in real applications.
論文目次 目錄
第一章 前言 1
第二章 研究方法 5
第一節 Kolmogorov–Smirnov statistic (KS-statistic) 5
第二節 Meta Imbalanced Classification Ensemble (MICE) 8
第三節 Clustering algorithm 8
第四節 LASSO 9
第五節 所提出的方法 10
第一項 變數獨立之資料 10
第二項 變數具相關性結構之資料 12
第三章 模擬試驗 14
第一節 變數獨立之資料 15
第二節 變數具潛在關聯性之資料 20
第四章 實例分析 25
第五章 結論與討論 27
第六章 參考文獻 29
第七章 附錄 33

表目錄
表 三 1 2×2列連表 14
表 三 2 變數獨立資料之變數挑選結果(平均值±標準誤) 16
表 三 3 變數具潛在相關性結構資料之變數挑選結果(平均值±標準誤) 21
表 附錄 - 1 LASSO nmin:nmaj:p = 100:10000:1000 33
表 附錄 - 2 nmin:nmaj:p = 100:10000:1000 33
表 附錄 - 3 LASSO nmin:nmaj:p = 100:1000:1000 34
表 附錄 - 4 34
表 附錄 - 5 nmin:nmaj:p = 100:1000:1000 34
表 附錄 - 6 LASSO nmin:nmaj:p = 100:1000:100 35
表 附錄 - 7 nmin:nmaj:p = 100:1000:100 35
表 附錄 - 8 LASSO nmin:nmaj:p = 100:10000:100 36
表 附錄 - 9 nmin:nmaj:p = 100:10000:100 36
表 附錄 - 10 Variable clustering nmin:nmaj:p = 100:10000:1000 37
表 附錄 - 11 Variable clustering nmin:nmaj:p = 100:1000:1000 37
表 附錄 - 12 Variable clustering nmin:nmaj:p = 100:1000:100 38
表 附錄 - 13 Variable clustering nmin:nmaj:p = 100:10000:100 38


圖目錄
圖 二 1 單一樣本KS-statistic之說明 6
圖 二 2 兩樣本KS-statistic之說明 7
圖 二 3 獨立性變數之高維度不平衡資料分類模型建構流程圖 11
圖 二 4 具相關性結構變數之高維度不平衡資料分類模型建構流程圖 13
圖 三 1 兩類別樣本數為N = 100:10000,有效變數與雜訊變數為P = 10:1000下變數獨立之測試集資料分類表現 18
圖 三 2 兩類別樣本數為N = 100:1000,有效變數與雜訊變數為P = 10:1000下變數獨立之測試集資料分類表現 18
圖 三 3 兩類別樣本數為N = 100:1000,有效變數與雜訊變數為P = 10:100下變數獨立之測試集資料分類表現 19
圖 三 4 兩類別樣本數為N = 100:10000,有效變數與雜訊變數為P = 10:100下變數獨立之測試集資料分類表現 19
圖 三 5 兩類別樣本數為N = 100:10000,有效變數與雜訊變數為P = 10:1000下變數具潛在相關性結構之測試集資料分類表現 23
圖 三 6 兩類別樣本數為N = 100:1000,有效變數與雜訊變數為P = 10:1000下變數具潛在相關性結構之測試集資料分類表現 23
圖 三 7 兩類別樣本數為N = 100:1000,有效變數與雜訊變數為P = 10:100下變數具潛在相關性結構之測試集資料分類表現 24
圖 三 8 兩類別樣本數為N = 100:10000,有效變數與雜訊變數為P = 10:100下變數具潛在相關性結構獨立之測試集資料分類表現 24
圖 四 1 假設變數互相獨立下 25
圖 四 2 假設變數之間具有關聯性 26

參考文獻 顏秀珍, 李御璽, & 王秋光. (2009). 改善不平衡資料集中少數類別資料之分類正確性的方法. 電子商務學報, 11(4), 847-858.
Chen, M., & An, H. Z. (1997). A Kolmogorov-Smirnov type test for conditional heteroskedasticity in time series. Statistics & probability letters, 33(3), 321-331.
Chawla, N. V., Bowyer, K. W., Hall, L. O., & Kegelmeyer, W. P. (2002). SMOTE: synthetic minority over-sampling technique. Journal of artificial intelligence research, 16, 321-357.
Chawla, N. V., Japkowicz, N., & Kotcz, A. (2004). Editorial: special issue on learning from imbalanced data sets. ACM Sigkdd Explorations Newsletter, 6(1), 1-6.
Drew, J. H., Glen, A. G., & Leemis, L. M. (2000). Computing the cumulative distribution function of the Kolmogorov–Smirnov statistic. Computational statistics & data analysis, 34(1), 1-15.
Estabrooks, A., Jo, T., & Japkowicz, N. (2004). A multiple resampling method for learning from imbalanced data sets. Computational intelligence, 20(1), 18-36.
Fan, J., Niu, Z., Liang, Y., & Zhao, Z. (2016). Probability model selection and parameter evolutionary estimation for clustering imbalanced data without sampling. Neurocomputing, 211, 172-181.
Fasano, G., & Franceschini, A. (1987). A multidimensional version of the Kolmogorov–Smirnov test. Monthly Notices of the Royal Astronomical Society, 225(1), 155-170.Guyon, I., & Elisseeff, A. (2003). An introduction to variable and feature selection. Journal of machine learning research, 3(Mar), 1157-1182.
Imam, T., Ting, K.M. & Kamruzzaman, J. (2006). z-SVM: an SVM for Improved classification of imbalanced data, in: A. Sattar, B.H. Kang (Eds.), AI 2006: Advances in Artificial Intelligence, Lecture Notes in Artificial Intelligence, vol. 4304, Springer, Berlin, Heidelberg, pp. 264-273.
Japkowicz, N. (2000, June). The class imbalance problem: Significance and strategies. In Proc. of the Int’l Conf. on Artificial Intelligence.
Justel, A., Peña, D., & Zamar, R. (1997). A multivariate Kolmogorov-Smirnov test of goodness of fit. Statistics & Probability Letters, 35(3), 251-259.
Kar, C., & Mohanty, A. R. (2006). Multistage gearbox condition monitoring using motor current signature analysis and Kolmogorov–Smirnov test. Journal of Sound and Vibration, 290(1), 337-368.
Lin, S. C., Chang, Y.-c. I., & Yang, W. N. (2009). Meta-learning for imbalanced data and classification ensemble in binary classification. Neurocomputing, 73(1), 484-494.
Liu, X. Y., Wu, J. & Zhou, Z. H. (2006). Exploratory under-sampling for class-imbalance learning, in: Proceedings of the Sixth International Conference on Data Mining, IEEE Computer Society, Washington, pp. 965-969.
Liu, X. Y. & Zhou, Z.H. (2006). The influence of class imbalance on the cost-sensitive learning: an empirical study, in: Proceedings of the ICDM ’06, IEEE The Computer Society.
López, V., Fernández, A., García, S., Palade, V., & Herrera, F. (2013). An insight into classification with imbalanced data: Empirical results and current trends on using data intrinsic characteristics. Information Sciences, 250, 113-141.
Meintanis, S. G. (2007). A Kolmogorov–Smirnov type test for skew normal distributions based on the empirical moment generating function. Journal of Statistical Planning and Inference, 137(8), 2681-2688.
Maldonado, S., Weber, R., & Famili, F. (2014). Feature selection for high-dimensional class-imbalanced data sets using Support Vector Machines. Information Sciences, 286, 228-246.
Sharma, S. (1995). Applied multivariate techniques. John Wiley & Sons, Inc..
Young, I. T. (1977). Proof without prejudice: use of the Kolmogorov-Smirnov test for the analysis of histograms from flow systems and other sources. Journal of Histochemistry & Cytochemistry, 25(7), 935-94
Yu, L., & Liu, H. (2003, August). Feature selection for high-dimensional data: A fast correlation-based filter solution. In ICML (Vol. 3, pp. 856-863).
論文使用權限
  • 同意紙本無償授權給館內讀者為學術之目的重製使用,於2017-08-16公開。
  • 同意授權瀏覽/列印電子全文服務,於2017-08-16起公開。


  • 若您有任何疑問,請與我們聯絡!
    圖書館: 請來電 (02)2621-5656 轉 2281 或 來信