淡江大學覺生紀念圖書館 (TKU Library)
進階搜尋


下載電子全文限經由淡江IP使用) 
系統識別號 U0002-1207201115082400
中文論文名稱 順序型變數轉換在決策樹之應用
英文論文名稱 Transformation of Ordinal Variables with Applications in Decision Trees
校院名稱 淡江大學
系所名稱(中) 統計學系碩士班
系所名稱(英) Department of Statistics
學年度 99
學期 2
出版年 100
研究生中文姓名 陳宇邦
研究生英文姓名 Yu-Pang Chen
電子信箱 698650081@s98.tku.edu.tw
學號 698650081
學位類別 碩士
語文別 中文
口試日期 2011-06-16
論文頁數 39頁
口試委員 指導教授-陳景祥
委員-歐士田
委員-李百靈
中文關鍵字 順序型變數  決策樹  變數轉換  輔助變數  歐式距離  CART  C4.5  QEUST 
英文關鍵字 data mining  decision tree  transform variables  ordinal variable  surrogate variables  euclidean distance  CART  C4.5  QUEST 
學科別分類 學科別自然科學統計
中文摘要 在資料探勘的實務分析中,我們常會遇到順序型尺度變數。順序型變數大都是研究員為求方便,將連續型變數進行切割、區間化轉換後產生。轉換後的順序型變數常會因為訊息的縮減而喪失原本連續型變數的完整資訊。此外,一般研究中分析順序型變數時,傳統的做法是直接將其視為連續型變數看待,兩者既然沒有同等的資訊卻混為一談,這樣的作法欠缺熟慮。因此,本研究利用輔助變數以及平面座標的概念,提出順序型變數的轉換方式,使用歐氏距離的方法將原本的順序型變數轉換成擬連續型變數並予以加權,以減少順序型變數所造成的資訊損失。我們也將轉換結果套用到CART、C4.5以及QUEST三種決策樹方法進行比較,結果顯示轉換後的擬連續變數確實能夠有效提升決策樹的分類準確率,代表轉換後的擬連續變數可以有效的彌補原本順序型變數所喪失的資訊。
英文摘要 In empirical data mining analysis, we need to handle ordinal-scale variables frequently. Also, many ordinal variables are often generated by researchers from continuous variables for convenience by grouping observed values into intervals, but some of the information contained in the original continuous variable will be lost. On the othe hand, when analyzing ordinal variables with numeric coding, people used to treat them as continuous variables, regardless of their differences in the amount of information.
  We propose a transformation method of ordinal variables into quasi-continuous variables by means of surrogate variables, concept of coordinates, and Euclidean distances. Our method expects less information loss than the traditional practice which uses only ordinal information. Our transformation method is then applied to three decision tree algorithm: CART, C4.5, and QUEST. With several real-world data sets, our study shows that the transformed Quasi-continuous variables can efficiently enhance classification accuracy rate of these decision trees.
論文目次 目錄
第一章 緒論 1
1.1 研究背景 1
1.2 研究動機 1
1.3 研究目的 2
1.4 研究架構 2
1.5 研究流程 3
第二章 文獻探討 4
2.1 資料探勘簡介 4
2.2 決策樹 6
2.3 尺度變數與順序尺度 10
2.4 順序尺度的批判 10
2.5 代理變數的觀念 11
第三章 研究方法與構思 13
3.1 距離的概念 13
3.2 等級權重的構思 14
3.3 輔助變數的引入 16
3.4 輔助變數的挑選 19
3.5 幾何加權法 19
3.6 曼哈頓距離 21
3.7 方法彙整 22
第四章 模擬與實例分析 23
4.1 模擬資料 23
4.3 實際資料分析 25
4.4 分類準確率的差異 31
第五章 結論與建議 33
5.1 結論 33
5.2 研究建議 34
參考文獻 35
附錄 38
圖目錄
圖 1 研究流程圖 3
圖 2 決策樹示意圖 6
圖 3 傳統等級示意圖 13
圖 4 合理等級距離示意圖 14
圖 5 單峰概念示意圖 15
圖 6 距離數據示意圖 15
圖 7 合理等級權重示意圖 16
圖 8 觀察值間實際距離算法示意圖 17
圖 9 原本等級權重示意圖 20
圖 10 權重長度示意圖 20
圖 11 加重權重算法示意圖 21
圖 12 加重權重示意圖 21
圖 13 距離區別示意圖 22

表目錄
表 1 模擬資料分類變數X次數分配表 23
表 2 模擬資料反應變數Y次數分配表 24
表 3 模擬資料之分類準確率彙整表 24
表 4 電玩資料分類變數X次數分配表 25
表 5 電玩資料反應變數Y次數分配表 25
表 6 電玩資料之分類準確率彙整表 26
表 7 醫療資料分類變數X次數分配表 27
表 8 醫療資料反應變數Y次數分配表 27
表 9 醫療資料之分類準確率彙整表 28
表 10 避孕資料分類變數X次數分配表 29
表 11 避孕資料反應變數Y次數分配表 29
表 12 避孕資料之分類準確率彙整表 30
表 13 分類準確率上升程度彙整表 31

參考文獻 參考文獻
中文部分
1. 蔡孟娟(2005)。<決策樹法在垃圾郵件過濾之應用>,私立淡江大學統計學系應用統計研究所碩士論文。
2. 葉采羚(2006)。<垃圾郵件過濾:資料採礦與中文斷詞技術之應用>,私立淡江大學統計學系應用統計研究所碩士論文。
3. 陳慈慧(2009)。<以近期購物的連(Run)特徵修正RMF模型>,私立淡江大學統計學系應用統計研究所碩士論文。
4. 陳婷婷(2009)。<以資料探勘技術分析拍賣網站數位相機購物消費行為>,私立淡江大學統計學系應用統計研究所碩士論文。
5. 洪惠萍(2009)。<以非對稱權重矩陣改善順序型分類器之績效評估指標>,私立淡江大學統計學系應用統計研究所碩士論文。
6. 吳永慶(2007)。<中文垃圾郵件客製化過濾系統之研究>,私立淡江大學統計學系應用統計研究所碩士論文。
7. 翁慈宗(2009)。<資料探勘的發展與挑戰>,科學發展442,33-39。

英文部分
1. Abelson, R. P., & Tukey, J. W. (1963). Efficient utilization of non-numerical information in quantitative analysis general theory and the case of simple order. The Annals of Mathematical Statistics, 34(4), 1347-1369.
2. Bartlett, M. S. (1947). The use of transformations. Biometrics, 3(1), 39-52.
3. Berry, M. A., & Linoff, G. (1997). Data mining techniques Wiley.
4. Box, G. E. P., & Cox, D. R. (1964). An analysis of transformations. Journal of the Royal Statistical Society.Series B (Methodological), 26(2), 211-252.
5. Breiman, L. (1984). Classification and regression trees Chapman & Hall/CRC.
6. Chen, R. Y. (2009). A problem-solving approach to product design using decision tree induction based on intuitionistic fuzzy. European Journal of Operational Research, 196(1), 266-272.
7. Datsenko, K. A., & Wanner, B. L. (2000). One-step inactivation of chromosomal genes in escherichia coli K-12 using PCR products. Proceedings of the National Academy of Sciences of the United States of America, 97(12), 6640.
8. De'ath, G., & Fabricius, K. E. (2000). Classification and regression trees: A powerful yet simple technique for ecological data analysis. Ecology, 81(11), 3178-3192.
9. Gnanadesikan, R. (1997). Methods for statistical data analysis of multivariate observations Wiley-Interscience.
10. Guttman, L. (1968). A general nonmetric technique for finding the smallest coordinate space for a configuration of points. Psychometrika, 33(4), 469-506.
11. Ishibuchi, H., & Nakashima, T. (2001). Effect of rule weights in fuzzy rule-based classification systems. Fuzzy Systems, IEEE Transactions on, 9(4), 506-515.
12. Ishibuchi, H., & Yamamoto, T. (2005). Rule weight specification in fuzzy rule-based classification systems. Fuzzy Systems, IEEE Transactions on, 13(4), 428-435.
13. Joiner, B. L. (1981). Lurking variables: Some examples. The American Statistician, 35(4), 227-233.
14. Khan, U., Shin, H., Choi, J. P., & Kim, M. (2008). wFDT-weighted fuzzy decision trees for prognosis of breast cancer survivability. Paper presented at the Proceeding of the Australasian Data Mining Conference,
15. Loh, W. Y., & Shih, Y. S. (1997). Split selection methods for classification trees. Statistica Sinica, 7, 815-840.
16. Loh, W. Y., & Vanichsetakul, N. (1988). Tree-structured classification via generalized discriminant analysis. Journal of the American Statistical Association, 83(403), 715-725.
17. Mansoori, E. G., Zolghadri, M. J., & Katebi, S. D. (2007). A weighting function for improving fuzzy classification systems performance. Fuzzy Sets and Systems, 158(5), 583-591.
18. Nauck, D., & Kruse, R. (1998). How the learning of rule weights affects the interpretability of fuzzy systems. Paper presented at the Fuzzy Systems Proceedings, 1998. IEEE World Congress on Computational Intelligence., the 1998 IEEE International Conference on, , 2 1235-1240 vol. 2.
19. Pinto da Costa, J. F., Alonso, H., & Cardoso, J. S. (2008). The unimodal model for the classification of ordinal data. Neural Networks, 21(1), 78-91.
20. Quinlan, J. R. (1993). C4. 5: Programs for machine learning Morgan Kaufmann.
21. Stevens, S. S. (1946). On the theory of scales of measurement. Science, 103(2684), 677-680.
22. Velleman, P. F., & Wilkinson, L. (1993). Nominal, ordinal, interval, and ratio typologies are misleading. The American Statistician, 47(1), 65-72.
23. Wilkinson, L. (1992). Tree structured data analysis: AID, CHAID and CART. Paper presented at the Proceedings of Sawtooth> Software Conference,
24. Yuan, Y., & Shaw, M. J. (1995). Induction of fuzzy decision trees. Fuzzy Sets and Systems, 69(2), 125-139.
25. Zadeh, L. (1965). Application of fuzzy set theory. Fuzzy Sets, Information and Control, 8, 338-353.
論文使用權限
  • 同意紙本無償授權給館內讀者為學術之目的重製使用,於2011-07-18公開。
  • 同意授權瀏覽/列印電子全文服務,於2011-07-18起公開。


  • 若您有任何疑問,請與我們聯絡!
    圖書館: 請來電 (02)2621-5656 轉 2281 或 來信