§ 瀏覽學位論文書目資料
  
系統識別號 U0002-2502202015180900
DOI 10.6846/TKU.2020.00721
論文名稱(中文) 非線性分割資料的SVM模型的變數選擇之模擬研究
論文名稱(英文) The simulation study for the Variables Selection in the Support Vector Machine when data are not separable.
第三語言論文名稱
校院名稱 淡江大學
系所名稱(中文) 數學學系數學與數據科學碩士班
系所名稱(英文) Master's Program, Department of Mathematics
外國學位學校名稱
外國學位學院名稱
外國學位研究所名稱
學年度 108
學期 1
出版年 109
研究生(中文) 董庭諭
研究生(英文) Ting-Yu Tung
學號 607190070
學位類別 碩士
語言別 英文
第二語言別
口試日期 2020-01-07
論文頁數 30頁
口試委員 指導教授 - 黃逸輝
委員 - 溫啟仲
委員 - 黃文瀚
關鍵字(中) 變數選擇
支撐向量機
非線性資料
羅吉斯組套索
核函數
關鍵字(英) Variable Selection
Support Vector Machine
Non-linear data
Logistic Group Lasso
Kernel method
第三語言關鍵字
學科別分類
中文摘要
本篇論文提出使用支撐向量機配合變數選擇的方法做變數選擇,首先生成三種不同型態的資料,主要著重於非線性分割的資料,考量不同數量的變數選擇不同個數的重要變數的情境,除了傳統的F-score方法外,我們另外使用RBF的核函數(Radial Basis Function)配合不同組合的伽瑪和權重將資料分類,接著使用三種變數選擇的方法:使用SVM分類的類別變數配合F-score、拉格朗日乘數對變數做線性迴歸以及將變數投影到高維度空間並分組的羅吉斯組套索,本文的目的在於比較這些方法變數選擇的表現。
透過本篇的模擬實驗,我們發現使用SVM分類的類別變數配合F-score優於使用原始資料的F-score,而本篇論文提出的拉格朗日乘數對變數做線性迴歸及羅吉斯組套索在多數情況下,表現不會比較差,而且在非線性的資料下(同心圓)只有羅吉斯組套索可以做得較好。
英文摘要
This paper compares different methods of variable selection from support vector machine. We consider three different types of data including linear separable, linear unseparable and nonlinear(separable/unseparable), we also consider the situations of choosing different numbers of important variables from different numbers of variables. In addition to the traditional F-score method, we also use the RBF(Radial Basis Function) kernel function with different combinations of gamma and weights to classify the data, and then use three variable selection methods: SVM+F-score, linear regression on Lagrange multiplier and the Logistic Group Lasso by projecting the variables into high-dimensional space and make them into groups.
Through the simulation experiments in this thesis, we found that SVM+F-score is better than F-score using the original label. In most cases, the linear regression on Lagrange multiplier, and Logistic Group Lasso are comparable with traditional method, and for the non-linear data (concentric circles), only the Logistic Group lasso can give satisfactory results in variable selection.
第三語言摘要
論文目次
1 Introduction 1
2 Review of SVM principle 4
3 Variable Selection Method 10
3.1 F-score  10
3.2 SVM+F-score  10
3.3 A Regression of αy  10
3.4 Logistic Group Lasso 11
4 Simutation Study 14
4.1 Choosing two important variables from five variables model  14
4.1.1 Logistic  15
4.1.2 Plane  17
4.1.3 Concentric circles 18
4.2 Eight variables choose Three important variables 19
4.2.1 Logistic 19
4.2.2 Plane  21
4.2.3 Concentric circles  22
4.3 Two half circles (with noise=0.6)  23
5 Example 25
6 Discussion 29
7 Reference 30
參考文獻
1.Chang, Y., Feature ranking using linear SVM,JMLR: workshop and conference proceedings, 2008.
2.Chen YW, Lin C J. Combining SVMs with various feature selection
strategies. Feature Extraction, Foundations, and Applications. $it{New~York:~Springer,~2005}$.
3.Meier L, van de Geer S, Bühlman P. The group lasso for logistic regression. Journal of the Royal Statistical Society B. 2008 February.
4.Scikit-learn: Machine Learning in Python, Pedregosa et al., JMLR 12, pp. 2825-2830, 2011.
5.Zhang, X., Wu, Y., Wang, L., Li, R.: Variable selection for support vector machines in moderately high dimensions.Journal of the Royal Statistical Society B. 78(1), 53–76 (2016).
6.陳俊安(2015). 使用模糊支撐向量機器解決訓練資料不均衡以及偏離雜訊的問題。朝陽科技大學資工系碩士論文
7.林湋翔(2019). 探討運用kernel 轉換對不平衡資料的分類模型建立與效用。淡江大學數學系碩士論文
8.李彥杰(2013).高微度資料之支援向量機整合型分類系統。天主教輔仁大學統計資訊學系碩士論文
論文全文使用權限
校內
校內紙本論文立即公開
同意電子論文全文授權校園內公開
校內電子論文立即公開
校外
同意授權
校外電子論文立即公開

如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信