系統識別號 | U0002-1507201311181600 |
---|---|
DOI | 10.6846/TKU.2013.00426 |
論文名稱(中文) | 資料複雜度指標在資料探勘分類方法之重要性 |
論文名稱(英文) | The Importance of the Data Complexity Indices on Classification Methods in Data Mining |
第三語言論文名稱 | |
校院名稱 | 淡江大學 |
系所名稱(中文) | 統計學系應用統計學碩士班 |
系所名稱(英文) | Department of Statistics |
外國學位學校名稱 | |
外國學位學院名稱 | |
外國學位研究所名稱 | |
學年度 | 101 |
學期 | 2 |
出版年 | 102 |
研究生(中文) | 王詩詠 |
研究生(英文) | Shih Yung Wang |
學號 | 600650047 |
學位類別 | 碩士 |
語言別 | 繁體中文 |
第二語言別 | |
口試日期 | 2013-06-18 |
論文頁數 | 61頁 |
口試委員 |
指導教授
-
陳景祥
委員 - 歐士田 委員 - 王藝華 |
關鍵字(中) |
資料複雜度 資料探勘 因素分析 分類器 分類正確率 |
關鍵字(英) |
data complexity data mining factor analysis classifiers classification correct rate |
第三語言關鍵字 | |
學科別分類 | |
中文摘要 |
資料探勘中的分類技術經常被使用於處理各種分類問題,如何從眾多的分類技術中選擇合適的方法進行分析研究即成為一個重要的課題。以往大多數的學者對於分類器性能的評估,通常著重於比較分類器的預測正確率或模型訓練的速度等等。然而,在實務上,不同的分類問題皆有其獨特的資料結構,因此可能影響著分類器的表現。本研究使用了十五個資料複雜度指標(data complexity index)以量化分類問題的資料特徵,並對於此十五個資料複雜度指標進行因素分析,探索指標之間的重複性、相關性,將選出的因素當成此十五種資料複雜度指標的綜合指標。 本文考慮了分類正確率的比例來評估一個分類器可否有效區分不同類別資料的能力。本研究的目的即是探索資料複雜度指標之間的相關性,並觀察資料特性的複雜程度對於各種分類技術的影響,研究結果也顯示,資料複雜度確實對於分類器的表現有所影響。本研究希望可以有效地提供資訊,使研究者面對一分類資料時,從資料複雜度指標值以及因素值可以預先推估可能的分類結果,也使研究者經由資料複雜度指標值或因素值,進而選擇對於欲分類的資料最適當之分類器。 |
英文摘要 |
Classification techniques in data mining are often used to deal with a variety of classification problems. Choosing suitable methods for analysis from many classification techniques becomes an important issue. For the performance evaluations of the classifiers, researchers used to compare them on several datasets in terms of classification accuracy or training time, and so on. In practice, however, different classification problems has their unique data complexities which might affect the accuracies of the classifiers. Therefore, we adopt fifteen data complexity indices to quantify the data characteristics and use correct classification rate to observe the influence of these indices on seven commonly used classification techniques. We also use factor analysis to explore the correlation among these indices. The results show that different data characteristics indeed have impacts on classification performance. According to our studies, for classification problems, researchers can calculate the data complexity indices or factor values suggested in this paper to estimate the classification difficulties, and also choose the most appropriate classification method on their study. |
第三語言摘要 | |
論文目次 |
目錄 I 表目錄 III 圖目錄 IV 第一章 緒論 1 1.1研究動機與目的 1 1.2論文架構 3 1.3研究流程 3 第二章 文獻探討 5 2.1資料複雜度指標 5 2.1.1重疊程度(Measure of overlap) 5 2.1.2類別可分性 8 2.1.3類別間歐式距離、拓譜結構 11 2.1.4其他測度方法 14 2.2分類器 17 2.2.1 CART決策樹 17 2.2.2 C4.5決策樹 19 2.2.3 K-NN (K-最近鄰判別法) 21 2.2.4 單純貝氏分類器 23 2.2.5 線性判別分析 (LDA) 24 2.2.6 羅吉斯迴歸 (Logistic Regression) 25 2.2.7 SVM (支持向量機) 26 第三章 研究方法 30 3.1資料前置處理 30 3.2因素分析 31 3.3 比較各分類器之分類表現 33 第四章 實例探討 34 4.1資料前置處理 34 4.2 使用因素分析探索複雜度指標之間的關係 40 4.3使用分類器探討極端資料集 48 第五章 結論與建議 57 5.1結果與討論 57 5.2研究建議 59 參考文獻 60 表目錄 表1KMO統計量評選標準 ...32 表2所使用的資料集 ...34 表 3 指標間相關係數 ...39 表4各因素之線性組合 ...42 表5各因素下所適用之分類器 ...56 圖目錄 圖 1論文流程圖... 4 圖 2類別間重疊示意圖 ...7 圖 3 MST示意圖 ...10 圖 4 T1結構示意圖...12 圖 5 SVM 示意圖 ...27 圖 6資料切割示意圖 ...30 圖 7指標在各資料集之表現 ...36 圖 8指標在各資料集之表現 ...37 圖 9指標在各資料集之表現 ...38 圖 10 平行分析 ...41 圖 11 Factor1在各資料集之表現 ...45 圖 12 Factor2在各資料集之表現 ...45 圖 13 Factor3在各資料集之表現 ...46 圖 14 Factor4在各資料集之表現 ...46 圖 15 Factor5在各資料集之表現 ...47 圖 16因素1評定結構單純的資料之分類器表現 ...49 圖 17因素1評定結構複雜的資料之分類器表現 ...49 圖 18因素2評定結構單純的資料之分類器表現 ...50 圖 19因素2評定結構複雜的資料之分類器表現 ...50 圖 20因素3評定結構單純的資料之分類器表現 ...51 圖 21因素3評定結構複雜的資料之分類器表現 ...51 圖 22因素4評定結構單純的資料之分類器表現 ...52 圖 23因素4評定結構複雜的資料之分類器表現 ...52 圖 24因素5評定結構單純的資料之分類器表現 ...53 圖 25因素5評定結構複雜的資料之分類器表現 ...53 |
參考文獻 |
1.王派洲譯;Han, J., Kamber, M.著(2008),資料探勘:概念與方法,臺中市:滄海。 2.沈彥廷(2012),「資料複雜度指標對資料探勘分類技術的影響」,淡江大學統計學系應用統計學碩士班碩士論文。 3.周文賢(2004),多變量統計分析 SAS/STAT 使用方法,台北市 :智勝。 4.陳景祥(2010),R軟體:應用統計方法,臺北市:台灣東華。 5.陳順宇(2005),多變量分析,臺北市:華泰文化。 1.Gnanadesikan, R. (1977). Methods for Statistical Data Analysis of Multivariate Observations.Wiley, New York. 2.Ho, T.K. and Baird, H.S. (1998), Pattern Classification with Compact Distribution Maps, Computer Vision and Image Understanding, 70, 101-110. 3.Ho, T.K. and Basu, M. (2002), Complexity Measures of Supervised Classification Problems, Transactions on Pattern Analysis and Machine Intelligence, 24, 289-300. 4.Johnson, Richard A. and Wichern, Dean W.(2007). Applied Multivariate Statistical Analysis. Pearson, New Jersey. 5.Kabacoff, Robert (2011). R in action. Manning, New York. 6.Lorena, A. C., Costa, I. G., Spolaor, N., and de Souto, M. C. (2012). Analysis of complexity indices for classification problems: cancer gene expression data.Neurocomputing, 75(1), 33-42. 7.Loh, W. Y., and Shih, Y. S. (1997). Split selection methods for classification trees. Statisticasinica, 7, 815-840. |
論文全文使用權限 |
如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信