淡江大學覺生紀念圖書館 (TKU Library)
進階搜尋


下載電子全文限經由淡江IP使用) 
系統識別號 U0002-0207201319062100
中文論文名稱 資料探勘技術應用於病患存活狀態之預測
英文論文名稱 Applications of Data Ming Techniques on the Prediction of Survival Status of Patients
校院名稱 淡江大學
系所名稱(中) 統計學系碩士班
系所名稱(英) Department of Statistics
學年度 101
學期 2
出版年 102
研究生中文姓名 江奕
研究生英文姓名 Yi Chiang
學號 600650369
學位類別 碩士
語文別 中文
口試日期 2013-06-18
論文頁數 42頁
口試委員 指導教授-陳景祥
委員-歐士田
委員-李百靈
中文關鍵字 分類器  分類正確率  資料複雜  資料探勘 
英文關鍵字 classifiers  classification correct rate  data complexity  data mining 
學科別分類
中文摘要 近年來,國人死亡率有逐漸提升的趨勢,而主要死因與往年比較,其標準化死亡率亦均呈現增加的情勢。因此,了解當前疾病的發生及疾病死亡構成,早已為醫學研究領域中的重要工作。當我們使用資料探勘的分類技術去探討某一特定疾病的個體狀態是否為死亡時,往往需要使用此疾病的相關因子來分析並且建構模型,方能達到一定的效果。在此,本研究於有限的資源內採納四個年度的健保就醫明細資料,並引入四種資料複雜度指標用於分類器篩選的依據,採用分類正確率、敏感度、特異度等等,用於評估六種常用的分類技術對於健保資料分類結果的表現。研究結果顯示,支持向量機與線性判別分析於分類正確率上有較佳的表現,其代表能較準確地單純依照個體的就醫資訊即可預測是否為死亡。未來希望能提供醫學研究方面的參考,同時也希望能為醫院每年配置合理的醫療資源和制定預防管理措施。
英文摘要 Mortality increased gradually in recent years. Besides, the standard mortality also present the gradual increment trend by comparing the main causes of death to the past few years. Therefore, understanding the happening of present disease and the component of disease-cause already becomes the important work in research healthcare. When we use data mining classification techniques to discuss whether one certain Status is death or not, we usually need to analyze and construct the model by using this related disease factor to achieve the optimal effect. This research aims to adopt National Health Insurance Resource in four years to filter six common useful classified techniques for the classification performance of National Health Insurance Resource by four complexity indices and evaluate those techniques by correct rates such as classification correct rate, specificity and so on. The results show that Support Vector Machine and Linear Discriminant Analysis have better performance on classification correct rate. It means that we could predict whether the individual status is died in the future or not precisely by its own information merely. In the future development, we hope to give more reference on medical researches. Moreover, we also hope to allocate the reasonable medical resources and make preparation of managing steps on hospitals each year.
論文目次 目錄 I
表目錄 III
圖目錄 IV
第一章 緒論 1
1.1 研究背景與動機 1
1.2 研究目的 2
1.3 研究架構 3
第二章 文獻探討 5
2.1 資料採礦(Data Mining) 5
2.2 分類器 5
2.2.1 決策樹簡介 5
2.2.2 CART決策樹 7
2.2.3 C4.5決策樹 9
2.2.4 隨機森林 10
2.2.5 支持向量機 11
2.2.6 單純貝氏分類器 12
2.2.7 線性判別分析 13
2.3 資料複雜度指標 14
2.3.1 F1指標 (最大 Fisher 判別比) 14
2.3.2 L1指標 (最小化線性規劃目標函數值) 15
2.3.3 N2指標 16
2.3.4 C1指標 (類別平衡程度) 17
2.4 CRIMCOORD 轉換方法 17
第三章 研究方法 18
3.1 資料來源 18
3.2 資料處理 19
3.3 分類器篩選 23
3.4 衡量分類技術的準則 24
3.4.1 分類正確率 24
3.4.2 敏感度、特異度、陽性預測值與陰性預測值 25
第四章 實例分析與比較 26
4.1 資料複雜度指標 26
4.2 模型建構 28
4.2.1 變數重要性 29
4.3 敘述統計分析 31
4.4 分類技術的評估與比較 34
4.4.1 敏感度、特異度、PPV、NPV與測試正確率 34
4.4.2 分類正確率與錯誤率 36
第五章 結論與建議 39
5.1 結論 39
5.2 研究建議 40
參考文獻 41

表目錄
表 1 處方及治療明細檔 18
表 2 研究變數 22
表 3 分類技術選擇建議 23
表 4 資料複雜度指標值 26
表 5 本資料分類器建議總表 27
表 6 六種分類器初步建模正確率 30
表 7 敘述統計-類別 31
表 8 敘述統計-數值 33
表 9 敏感度、特異度、PPV、NPV、正確率 35
表 10 Ten-Fold 交叉驗證 36
表 11 分類錯誤率總表 37


圖目錄
圖 1 研究流程圖 4
圖 2 決策樹示意圖 7
圖 3 隨機森林示意圖 10
圖 4 N2指標示意圖 16
圖 5 依就醫日期處理示意圖 19
圖 6 就醫點數累積加總示意圖 20
圖 7 判別個體狀態示意圖 21
圖 8 Ten-Fold 交叉驗證示意圖 24
圖 9 混淆矩陣示意圖 25
圖 10 變數重要性 29
圖 11 就醫所在地區比例 31
圖 12 分類矩陣 34
圖 13 Sensitivity、PPV、Correct rate、NPV、Specificity 38
參考文獻 參考文獻
中文文獻:
1.王派洲譯;Han, J., Kamber, M.著(2008),資料探勘:概念與方法,臺中市:滄海。
2.沈彥廷(2012),「資料複雜度指標對資料探勘分類技術的影響」,淡江大學統計學系應用統計學碩士班碩士論文。
3.吳泳慶(2007),「中文垃圾郵件客製化過濾系統之研究」,淡江大學統計學系應用統計學碩士班碩士論文。
4.施雅月、賴錦慧譯;Tan, P.N., Steinbach, M. and Kumar, V.著(2007),資料探勘,臺北市:臺灣培生教育。
5.陳景祥(2010),R軟體:應用統計方法,臺北市:台灣東華。
6.盧洲成(2003) ,「資料採礦在生物與醫學資訊的應用」,淡江大學統計學系應用統計學碩士班碩士論文。

英文文獻:
1.Breiman, L. (2001), Random Forests, Machine Learning, 45, 5-32.
2.Breiman, L., Friedman, J.H., Olshen, R.A. and Stone, C.J. (1984). Classification and regression trees. Wadsworth.
3.Boser, B. E., Guyon, I. M., & Vapnik, V. N. (1992, July). A training algorithm for optimal margin classifiers. In Proceedings of the fifth annual workshop on Computational learning theory (pp. 144-152). ACM.
4.Drummond, C., & Holte, R. C. (2003, August). C4. 5, class imbalance, and cost sensitivity: why under-sampling beats over-sampling. In Workshop on Learning from Imbalanced Datasets II (Vol. 11).
5.Fisher, R. A. (1936). The use of multiple measurements in taxonomic problems.Annals of eugenics, 7(2), 179-188.
6.Gnanadesikan, R. (1977). Methods for Statistical Data Analysis of Multivariate Observations.Wiley, New York.
7.Ho, T.K. and Basu, M. (2002), Complexity Measures of Supervised Classification Problems, Transactions on Pattern Analysis and Machine Intelligence, 24, 289-300.
8.Kalousis, A., Gama, J. and Hilario, M. (2004), On data and algorithms: understanding inductive performance, Machine Learning, 54, 275-312.
9.Loh, W. Y., & Shih, Y. S. (1997). Split selection methods for classification trees.Statistica sinica, 7, 815-840.
10.Lorena, A.C., Costa, I.G., Spolaor, N. and Souto, M. (2011), Analysis of complexity indices for classification problems: Cancer gene expression data, Neurocomputing, 75, 33-42.
11.Loh, W. Y., & Shih, Y. S. (1997). Split selection methods for classification trees. Statistica sinica, 7, 815-840.
12.Quinlan, J. R. (1993). C4. 5: programs for machine learning (Vol. 1). Morgan kaufmann.
13.Smith, F.W. (1968), Pattern Classifier Design by Linear Programming, Transactions on Computers, 17, 367-372.
論文使用權限
  • 同意紙本無償授權給館內讀者為學術之目的重製使用,於2013-07-04公開。
  • 同意授權瀏覽/列印電子全文服務,於2013-07-04起公開。


  • 若您有任何疑問,請與我們聯絡!
    圖書館: 請來電 (02)2621-5656 轉 2281 或 來信