§ 瀏覽學位論文書目資料
  
系統識別號 U0002-1907201801250400
DOI 10.6846/TKU.2018.00554
論文名稱(中文) 以支援向量機估計邏輯斯迴歸模型的機率跳躍點之模擬研究
論文名稱(英文) The simulation study of using support vector machine on detecting jump points in logistic regression
第三語言論文名稱
校院名稱 淡江大學
系所名稱(中文) 數學學系數學與數據科學碩士班
系所名稱(英文) Master's Program, Department of Mathematics
外國學位學校名稱
外國學位學院名稱
外國學位研究所名稱
學年度 106
學期 2
出版年 107
研究生(中文) 鄭為澤
研究生(英文) Wei-che Cheng
學號 603190090
學位類別 碩士
語言別 繁體中文
第二語言別
口試日期 2018-06-23
論文頁數 42頁
口試委員 指導教授 - 黃逸輝
委員 - 黃文瀚
委員 - 溫啟仲
關鍵字(中) 跳躍函數
邏輯斯迴歸
支援向量機
關鍵字(英) threshold
logistic
SVM
第三語言關鍵字
學科別分類
中文摘要
機率跳躍點是指原本連續的邏輯式迴歸模型當中具有機率不連續的情形。傳統方法以最大概似估計量來估計此機率跳躍點。在本研究中,引入支援向量機來協助估計此機率跳躍點。支援向量機為機器學習當中的一種分類器。它會在資料所構成的空間當中產生一個分割資料的超平面。而我們便是利用這一個超平面作為我們的機率跳躍函數。然而,支援向量機的超平面分割的資料群對應到機率值大約是在p=0.5,而當機率跳躍點並不是p=0.5時,在本研究中根據原始觀測值生成新的觀測值,使其機率跳躍點可以被調整至p=0.5。並透過p-value的選擇,找到最顯著的超平面作為跳躍函數。
  在本研究中,比較了不同的模擬情境之下,模型的估計能力。根據本研究顯示:在某些情境的限制之下,SVM能夠有效的協助邏輯斯迴歸找到機率跳躍點。而如何改善使這個方法能夠適用所有的情境,有待未來更多的研究來發現。
英文摘要
Threshold model is a model based on logistic model but with a threshold point that makes the probability discontinuous. Most of traditional methods use likelihood based approach to estimate the threshold. In this report, we use SVM (support vector machine) to help us to identify the change point in logistic regression. SVM is a popular classifier in machine learning. It constructs a hyperplane between two perfectly separated classes. If there are any change point in the model, it must have something to do with the hyperplane. However, SVM only do well when the probability discontinuous point is around p=0.5. When it is not around p=0.5, we generate new observation based on the original observation, so that the probability discontinuous point can be shifted to be around p=0.5. And then we use the hyperplane which was determined by the quality regrading p-value as the threshold function 
We compare the ability of the methods on different simulated situation. According to this report, SVM is effective to find the threshold function in some particular limited situations. However, whether it could be adapted for all situations or not, that will await for further researches and studies.
第三語言摘要
論文目次
1 緒論. . . . . . . . . . . . . . . . . . . . . 1
1.1 研究背景. . . . . . . . . . . . . . . . . . 1
1.2 研究所需模型. . . . . . . . . . . . . . . . 3
1.2.1 邏輯斯迴歸(logistic regression) . . . . . 3
1.2.2 支援向量機(support vector machine) . . .  4
1.2.3 SVM與logistic regression之優缺點比較. . . 9
2 研究內容. . . . . . . . . . . . . . . . . . .11
2.1 跳躍點發生在p=0.5 . . . . . . . . . . . . .11
2.1.1 模擬數據之生成. . . . . . . . . . . . . .11
2.1.2 logistic regression分析之結果. . . . . . 12
2.1.3 SVM分析之結果. . . . . . . . . . . . . . 12
2.1.4 利用SVM改良logistic regression . . . . . 13
2.2 threshold不發生在p=0.5 . . . . . . . . . . 15
2.2.1 模擬數據之生成. . . . . . . . . . . . . .15
2.2.2 logistic regression分析之結果. . . . . . 16
2.2.3 SVM分析之結果. . . . . . . . . . . . . . 16
2.2.4 利用SVM改良邏輯斯迴歸. . . . . . . . . . 17
2.3 新方法使得SVM能夠找到跳躍函數. . . . . . . 18
2.3.1 發想. . . . . . . . . . . . . . . . . . .18
2.3.2 修正. . . . . . . . . . . . . . . . . . .19
2.3.3 誤差. . . . . . . . . . . . . . . . . . .22
2.3.4 評估. . . . . . . . . . . . . . . . . . .22
2.3.5 重複模擬實驗. . . . . . . . . . . . . . .23
2.3.6 模擬情境設定. . . . . . . . . . . . . . .24
3 結論. . . . . . . . . . . . . . . . . . . . .40
List of Figures
1.1 logistic regression model . . . . . . . . . 1
1.2 過了黃金期痊癒機率突然下降的機率模型. . . . 2
1.3 Cost對分隔函數的影響. . . . . . . . . . . . 6
1.4 大聯盟某裁判所判決的好壞球的分布圖. . . . . 9
1.5 SVM對大聯盟某裁判所判決的好壞球所產生的結果10
2.1 (2.1)所生成的機率分布圖形. . . . . . . . . 12
2.2 svm對threshold=0.5的資料以kernel為linear之
分析結果(C = 1; 10; 100結果皆相同) . . . . . . 13
2.3 svm對threshold=0.5的資料以kernel為
polynomail之分析結果. . . . . . . . . . . . . .13
2.4 svm對threshold=0.5的資料以kernel為RBF之分析
結果. . . . . . . . . . . . . . . . . . . . . .14
2.5 (2.3)所生成的機率分布圖形. . . . . . . . . 15
2.6 svm對跳躍函數為x2 = 0.3的資料之分析結果. . 16
2.7 svm對新產生的ynew之分析結果. . . . . . . . 19
2.8 0.02228734x1 + x2 = -0.2723155與x2= -0.3之
比較圖. . . . . . . . . . . . . . . . . . . . .21
2.9 在n=200時,兩模型所估計出來的跳躍函數. . . 25
2.10 在n=700時,兩模型所估計出來的跳躍函數. . .26
2.11 在資料左移時,兩模型所估計出來的跳躍函數. 27
2.12 資料右移時,兩模型所估計出來的跳躍函數. . 28
2.13 在b2 = 10時,兩模型所估計出來的跳躍函數. .29
2.14 在b2 = 7時,兩模型所估計出來的跳躍函數. . 30
2.15 在b2 = 2時,兩模型所估計出來的跳躍函數. . 31
2.16 在 a = 0時,兩模型所估計出來的跳躍函數. . 32
2.17 在 a = 1時,兩模型所估計出來的跳躍函數. . 33
2.18 在b1 = 5時,兩模型所估計出來的跳躍函數. . 34
2.19 在b1 = 5時,以新方法兩模型所估計出來的跳躍
函數. . . . . . . . . . . . . . . . . . . . . .35
2.20 在b1 = 2時,兩模型所估計出來的跳躍函數. . 36
2.21 在b1 = 2時,以新方法兩模型所估計出來的跳躍
函數. . . . . . . . . . . . . . . . . . . . . .37
2.22 在b1 = 1時,兩模型所估計出來的跳躍函數. . 38
2.23 在b1 = 1時,以新方法兩模型所估計出來的跳躍
函數. . . . . . . . . . . . . . . . . . . . . .39
List of Tables
2.1 重複100次之模擬結果. . . . . . . . . . . . 23
2.2 n = 200之模擬結果. . . . . . . . . . . . . 24
2.3 n = 200之模擬結果. . . . . . . . . . . . . 25
2.4 n = 700之模擬結果. . . . . . . . . . . . . 26
2.5 x1、x2左移之模擬結果. . . . . . . . . . . .27
2.6 x1、x2右移且k =  -0.2之模擬結果. . . . . . 28
2.7 b2 = 10之模擬結果. . . . . . . . . . . . . 29
2.8 b2 = 7之模擬結果. . . . . . . . . . . . . .30
2.9 b2 = 2之模擬結果. . . . . . . . . . . . . .31
2.10 a= 0之模擬結果. . . . . . . . . . . . . .32
2.11 a= 1之模擬結果. . . . . . . . . . . . . .33
2.12 b1 = 5之模擬結果. . . . . . . . . . . . . 34
2.13 b1 = 5以新方法之模擬結果. . . . . . . . . 35
2.14 b1 = 2之模擬結果. . . . . . . . . . . . . 36
2.15 b1 = 2以新方法之模擬結果. . . . . . . . . 37
2.16 b1 = 1之模擬結果. . . . . . . . . . . . . 38
2.17 b1 = 1以新方法之模擬結果. . . . . . . . . 39
參考文獻
References
Bernhard B., Isabelle G., and Vladimir V.(1992) A training algorithm for optimal margin classi ers.
Proceedings of the  fth annual workshop on Computational learning theory { COLT '92. : 144
Corinna C., Vladimir V.(1995) Support-vector networks. Machine Learning. 20: 273{297
Fong Y., Di C., and Permar S.(2015):Change Point Testing in Logistic Regression Models with In-
teraction Term.Stat Med. 34:1483{94
Fong Y., Huang Y., Gilbert P. and Permar S.(2017):Threshold Regression Model Estimation and
Inference.BMC Bioinformatics 18:454
Gurevicha G., Vexlerb A.(2005):Change point problems in the model of logistic regression.Journal
of Statistical Planning and Inference 131 313 { 331
Hansen B.(2000):Sample Splitting and Threshold Estimation.Econometrica, 68, 575-603
Platt J. (2000): Probabilistic outputs for support vector machines and comparison to regularized
likelihood methods. Advances in Large Margin Classi ers.
47
論文全文使用權限
校內
校內紙本論文立即公開
同意電子論文全文授權校園內公開
校內電子論文立即公開
校外
同意授權
校外電子論文立即公開

如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信