淡江大學覺生紀念圖書館 (TKU Library)
進階搜尋


下載電子全文限經由淡江IP使用) 
系統識別號 U0002-2502202015180900
中文論文名稱 非線性分割資料的SVM模型的變數選擇之模擬研究
英文論文名稱 The simulation study for the Variables Selection in the Support Vector Machine when data are not separable.
校院名稱 淡江大學
系所名稱(中) 數學學系數學與數據科學碩士班
系所名稱(英) Master's Program, Department of Mathematics
學年度 108
學期 1
出版年 109
研究生中文姓名 董庭諭
研究生英文姓名 Ting-Yu Tung
學號 607190070
學位類別 碩士
語文別 英文
口試日期 2020-01-07
論文頁數 30頁
口試委員 指導教授-黃逸輝
委員-溫啟仲
委員-黃文瀚
中文關鍵字 變數選擇  支撐向量機  非線性資料  羅吉斯組套索  核函數 
英文關鍵字 Variable Selection  Support Vector Machine  Non-linear data  Logistic Group Lasso  Kernel method 
學科別分類
中文摘要 本篇論文提出使用支撐向量機配合變數選擇的方法做變數選擇,首先生成三種不同型態的資料,主要著重於非線性分割的資料,考量不同數量的變數選擇不同個數的重要變數的情境,除了傳統的F-score方法外,我們另外使用RBF的核函數(Radial Basis Function)配合不同組合的伽瑪和權重將資料分類,接著使用三種變數選擇的方法:使用SVM分類的類別變數配合F-score、拉格朗日乘數對變數做線性迴歸以及將變數投影到高維度空間並分組的羅吉斯組套索,本文的目的在於比較這些方法變數選擇的表現。
透過本篇的模擬實驗,我們發現使用SVM分類的類別變數配合F-score優於使用原始資料的F-score,而本篇論文提出的拉格朗日乘數對變數做線性迴歸及羅吉斯組套索在多數情況下,表現不會比較差,而且在非線性的資料下(同心圓)只有羅吉斯組套索可以做得較好。
英文摘要 This paper compares different methods of variable selection from support vector machine. We consider three different types of data including linear separable, linear unseparable and nonlinear(separable/unseparable), we also consider the situations of choosing different numbers of important variables from different numbers of variables. In addition to the traditional F-score method, we also use the RBF(Radial Basis Function) kernel function with different combinations of gamma and weights to classify the data, and then use three variable selection methods: SVM+F-score, linear regression on Lagrange multiplier and the Logistic Group Lasso by projecting the variables into high-dimensional space and make them into groups.
Through the simulation experiments in this thesis, we found that SVM+F-score is better than F-score using the original label. In most cases, the linear regression on Lagrange multiplier, and Logistic Group Lasso are comparable with traditional method, and for the non-linear data (concentric circles), only the Logistic Group lasso can give satisfactory results in variable selection.

論文目次 1 Introduction 1
2 Review of SVM principle 4
3 Variable Selection Method 10
3.1 F-score 10
3.2 SVM+F-score 10
3.3 A Regression of αy 10
3.4 Logistic Group Lasso 11
4 Simutation Study 14
4.1 Choosing two important variables from five variables model 14
4.1.1 Logistic 15
4.1.2 Plane 17
4.1.3 Concentric circles 18
4.2 Eight variables choose Three important variables 19
4.2.1 Logistic 19
4.2.2 Plane 21
4.2.3 Concentric circles 22
4.3 Two half circles (with noise=0.6) 23
5 Example 25
6 Discussion 29
7 Reference 30
參考文獻 1.Chang, Y., Feature ranking using linear SVM,JMLR: workshop and conference proceedings, 2008.
2.Chen YW, Lin C J. Combining SVMs with various feature selection
strategies. Feature Extraction, Foundations, and Applications. $it{New~York:~Springer,~2005}$.
3.Meier L, van de Geer S, Bühlman P. The group lasso for logistic regression. Journal of the Royal Statistical Society B. 2008 February.
4.Scikit-learn: Machine Learning in Python, Pedregosa et al., JMLR 12, pp. 2825-2830, 2011.
5.Zhang, X., Wu, Y., Wang, L., Li, R.: Variable selection for support vector machines in moderately high dimensions.Journal of the Royal Statistical Society B. 78(1), 53–76 (2016).
6.陳俊安(2015). 使用模糊支撐向量機器解決訓練資料不均衡以及偏離雜訊的問題。朝陽科技大學資工系碩士論文
7.林湋翔(2019). 探討運用kernel 轉換對不平衡資料的分類模型建立與效用。淡江大學數學系碩士論文
8.李彥杰(2013).高微度資料之支援向量機整合型分類系統。天主教輔仁大學統計資訊學系碩士論文
論文使用權限
  • 同意紙本無償授權給館內讀者為學術之目的重製使用,於2020-02-27公開。
  • 同意授權瀏覽/列印電子全文服務,於2020-02-27起公開。


  • 若您有任何疑問,請與我們聯絡!
    圖書館: 請來電 (02)2621-5656 轉 2486 或 來信