§ 瀏覽學位論文書目資料
  
系統識別號 U0002-0606201202310000
DOI 10.6846/TKU.2012.00231
論文名稱(中文) 資料複雜度指標對資料探勘分類技術的影響
論文名稱(英文) The Influence of Data Complexity Indices on Classification Techniques in Data Mining
第三語言論文名稱
校院名稱 淡江大學
系所名稱(中文) 統計學系碩士班
系所名稱(英文) Department of Statistics
外國學位學校名稱
外國學位學院名稱
外國學位研究所名稱
學年度 100
學期 2
出版年 101
研究生(中文) 沈彥廷
研究生(英文) Yen-Ting Shen
學號 699650296
學位類別 碩士
語言別 繁體中文
第二語言別
口試日期 2012-05-23
論文頁數 56頁
口試委員 指導教授 - 陳景祥
委員 - 歐士田
委員 - 吳錦全
關鍵字(中) 資料複雜度
資料探勘
分類器
分類錯誤率
敏感度
特異度
關鍵字(英) data complexity
data mining
classifiers
classification error rate
sensitivity
specificity
第三語言關鍵字
學科別分類
中文摘要
資料探勘領域中的分類技術經常被用於處理各種分類問題。如何從眾多的分類技術中選擇合適的方法進行分析研究即成為一個重要的課題。以往對於各種分類器的性能評估,通常是比較分類器對於一些測試資料集的預測正確率或模型訓練時間等等……。然而在實務上,每一個不同的分類問題皆有其獨特的資料複雜度,對於所有的測試資料集都給予相同權重的評估方法顯然過於理想化。因此,本研究引入九種資料複雜度指標以量化分類問題的資料特徵,並利用分類錯誤率、敏感度以及特異度來觀察這些資料複雜度指標對於七種常用的分類技術之影響。研究結果顯示,不同的資料特徵的確會對分類技術的效能產生影響。因此未來在處理分類問題時,研究者即可參考本研究結果,先行計算較具代表性的資料複雜度指標以預估可能的分類情形,並且依照資料的結構與特徵來選擇較合適的分類方法以進行後續的研究。
英文摘要
Classification techniques in data mining are often used to deal with a variety of classification problems. Choosing suitable method for analysis from many classification techniques becomes an important issue. For the performance evaluations of the classifiers, researchers used to compare them on several datasets in terms of classification accuracy or training time, and so on. In practice, however, different classification problems has their unique data complexities. The assessment methods that give same weight to all datasets is obviously idealistic. Therefore, we adopt nine data complexity indices to quantify the data characteristics and use classification error rate, sensitivity, and specificity to observe the influence of these data complexity indices among seven commonly used classification techniques. The results show that different data characteristics indeed have an impact on classification performance. So when dealing with classification problems, researchers can firstly calculate data complexity indices suggested in this paper to estimate the classification difficulties, and use the data complexity indices to choose appropriate classification method for the follow-up study.
第三語言摘要
論文目次
目錄
目錄	I
表目錄	III
圖目錄	IV
第一章	緒論	1
1.1	研究動機與目的	1
1.2	論文架構	2
1.3	研究流程	3
第二章	文獻探討	4
2.1	資料複雜度指標	4
2.1.1	衡量資料重疊程度	4
2.1.2	衡量類別的可分性	6
2.1.3	其他衡量測度方法	8
2.2	分類器	10
2.2.1	CART決策樹	10
2.2.2	C4.5決策樹	11
2.2.3	最近鄰近點法	12
2.2.4	單純貝氏分類器	13
2.2.5	線性判別分析	13
2.2.6	羅吉斯迴歸	15
2.2.7	支持向量機	15
第三章	研究方法	18
3.1	資料預處理	18
3.2	分類技術的評估準則	19
3.2.1	分類錯誤率	19
3.2.2	敏感度與特異度	19
3.3	分類技術的比較方法	21
3.3.1	資料複雜度與分類器之整體相關性	22
3.3.2	資料複雜度對個別分類技術的影響	22
第四章	實例分析與比較	23
4.1	資料複雜度指標的分配與相關性	23
4.2	資料複雜度指標與分類技術評估準則	26
4.3	分類技術的整體比較	29
4.4	分類技術的衡量指標趨勢	32
4.5	變數重要性	42
4.6	各別比較驗證	44
第五章	結論與建議	51
5.1	結論	51
5.2	研究建議	52
參考文獻	54

表目錄
表1 資料複雜度指標彙整表	10
表2 資料集資訊	18
表3 各分類技術的分類錯誤率表現	29
表4 各分類技術的ROC距離表現	30
表5 分類技術選擇建議	52

圖目錄
圖1 研究流程圖	3
圖2 MST示意圖	7
圖3 T1結構示意圖	8
圖4 LDA示意圖	14
圖5 SVM示意圖	16
圖6 ROC空間示意圖	20
圖7 資料複雜度指標的分配	24
圖8 資料複雜度指標之間的相關性	25
圖9 資料複雜度指標與平均分類錯誤率	27
圖10 資料複雜度指標與平均ROC距離	28
圖11 分類技術整體比較 - 分類錯誤率	31
圖12 分類技術整體比較 - ROC距離	31
圖13 資料複雜度指標與各分類技術分類錯誤率趨勢 - 1	36
圖14 資料複雜度指標與各分類技術分類錯誤率趨勢 - 2	37
圖15 資料複雜度指標與各分類技術分類錯誤率趨勢 - 3	38
圖16 資料複雜度指標與各分類技術ROC距離趨勢 - 1	39
圖17 資料複雜度指標與各分類技術ROC距離趨勢 - 2	40
圖18 資料複雜度指標與各分類技術ROC距離趨勢 - 3	41
圖19 資料複雜度指標重要性	43
圖20 CART決策樹與其他分類技術的比較	47
圖21 C4.5決策樹與其他分類技術的比較	47
圖22 k-NN法與其他分類技術的比較	48
圖23 單純貝氏分類器與其他分類技術的比較	48
圖24 線性判別分析與其他分類技術的比較	49
圖25 羅吉斯迴歸與其他分類技術的比較	49
圖26 支持向量機與其他分類技術的比較	50
參考文獻
中文文獻:
1.	王派洲譯;Han, J., Kamber, M.著(2008),資料探勘:概念與方法,臺中市:滄海。
2.	吳泳慶(2007),「中文垃圾郵件客製化過濾系統之研究」,淡江大學統計學系應用統計學碩士班碩士論文。
3.	施雅月、賴錦慧譯;Tan, P.N., Steinbach, M. and Kumar, V.著(2007),資料探勘,臺北市:臺灣培生教育。
4.	洪惠萍(2009),「以非對稱權重矩陣改善順序型分類器之績效評估指標」,淡江大學統計學系應用統計學碩士班碩士論文。
5.	陳宇邦(2011),「順序型變數轉換在決策樹之應用」,淡江大學統計學系應用統計學碩士班碩士論文。
6.	陳景祥(2010),R軟體:應用統計方法,臺北市:台灣東華。

英文文獻:
1.	Breiman, L. (2001), Random Forests, Machine Learning, 45, 5-32.
2.	Breiman, L., Friedman, J.H., Olshen, R.A. and Stone, C.J. (1984). Classification and regression trees. Wadsworth.
3.	Cleveland, W. S. (1981), LOWESS: A program for smoothing scatterplots by robust locally weighted regression, The American Statistician, 35, 54.
4.	Friedman, J.H. and Rafsky, L.C. (1979), Multivariate Generalizations of the Wald-Wolfowitz and Smirnov Two-Sample Tests, The Annals of Statistics, 7, 697-717.
5.	Ho, T.K. and Baird, H.S. (1998), Pattern Classification with Compact Distribution Maps, Computer Vision and Image Understanding, 70, 101-110.
6.	Ho, T.K. and Basu, M. (2002), Complexity Measures of Supervised Classification Problems, Transactions on Pattern Analysis and Machine Intelligence, 24, 289-300.
7.	Kalousis, A., Gama, J. and Hilario, M. (2004), On data and algorithms: understanding inductive performance, Machine Learning, 54, 275-312.
8.	Lebourgeois, F. and Emptoz, H. (1996), Pretopological Approach for Supervised Learning, Pattern Recognition, 13, 256-260.
9.	Lim, T.S., Loh, W.Y. and Shih, Y.S. (2000), A Comparison of Prediction Accuracy, Complexity, and Training Time of Thirty-three Old and New Classification Algorithms, Machine Learning, 40, 203-229.
10.	Loh, W.Y. and Shih, Y.S. (1997), Split Selection Methods for Classification Trees, Statistica Sinica, 7, 815-840.
11.	Lorena, A.C., Costa, I.G., Spolaor, N. and Souto, M. (2011), Analysis of complexity indices for classification problems: Cancer gene expression data, Neurocomputing, 75, 33-42.
12.	Mak, B., Bui, T. and Blanning, R. (1996), Aggregating and Updating Experts’ Knowledge: An Experimental Evaluation of Five Classification Techniques, Expert Systems With Applications, 10, 233-241.
13.	Quinlan, J.R. (1993). C4.5: Programs for Machine Learning. Morgan Kaufmann.
14.	Smith, F.W. (1968), Pattern Classifier Design by Linear Programming, Transactions on Computers, 17, 367-372.
15.	Swets, J.A. (1996). Signal detection theory and ROC analysis in psychology and diagnostics: collected papers. Lawrence Erlbaum Associates.
16.	Vapnik, V. (1995). The Nature of Statistical Learning Theory. Springer Verlag.
17.	Vapnik, V. (1998). Statistical Learning Theory. John Wiley & Sons.
18.	Witten, I.H. (2011). Data mining: practical machine learning tools and techniques. Morgan Kaufmann.

網路資源:
1.	UC-Irvine Machine Learning Repository, http://archive.ics.uci.edu/ml/
2.	Wikipedia, http://zh.wikipedia.org/
論文全文使用權限
校內
校內紙本論文立即公開
同意電子論文全文授權校園內公開
校內電子論文立即公開
校外
同意授權
校外電子論文立即公開

如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信