系統識別號 | U0002-2707201016055600 |
---|---|
DOI | 10.6846/TKU.2010.01009 |
論文名稱(中文) | 函數型主成份分析於曲線資料分類問題之應用 |
論文名稱(英文) | Classification Using Functional Principal Component Analysis for Curve Data |
第三語言論文名稱 | |
校院名稱 | 淡江大學 |
系所名稱(中文) | 統計學系碩士班 |
系所名稱(英文) | Department of Statistics |
外國學位學校名稱 | |
外國學位學院名稱 | |
外國學位研究所名稱 | |
學年度 | 98 |
學期 | 2 |
出版年 | 99 |
研究生(中文) | 王哲秋 |
研究生(英文) | Che-Chiu Wang |
學號 | 697650173 |
學位類別 | 碩士 |
語言別 | 繁體中文 |
第二語言別 | |
口試日期 | 2010-06-24 |
論文頁數 | 106頁 |
口試委員 |
指導教授
-
李百靈
委員 - 林建華 委員 - 陳怡如 |
關鍵字(中) |
分類 曲線資料 函數型主成份分析 |
關鍵字(英) |
Classification Curve Data Functional Principal Components Analysis |
第三語言關鍵字 | |
學科別分類 | |
中文摘要 |
本文提出一最佳預測曲線分類準則來分析曲線資料,在假設不同類別之隨機曲線的平均函數與特徵函數是相異的情況下,利用函數型主成份分析建立各類曲線的模式。對某一特定的觀測曲線,最佳預測曲線分類準則是以此觀測曲線與根據各類別模式所得之配適曲線的最小距離決定此曲線的最佳分類。本文以數值模擬研究與一組實際資料做為新方法的驗證,所分析的實際資料則是由美國范德堡大學癌症生物統計中心所提供的介質輔助雷射脫附游離(Matrix Assisted Laser Desorption, MALDI) 資料。從數值模擬研究與實際資料可以發現, 當各類別的特徵函數不同時,最佳預測曲線分類準則其結果是較其他方法有優勢的。此外,函數型分類方法於曲線分類之表現較多變量分類方法好,而利用函數型主成份分析有助於曲線資料的分類。 |
英文摘要 |
We propose a best predicted curve (BPC) classification criterion for classifying the curve data. The data are viewed as realizations of a mixture of stochastic processes and each sub-process corresponds to a known class. Under the assumption that all the subprocesses have different mean functions and eigenspaces, an observed curve is classified into the best predicted class by minimizing the distance between the observed and predicted curves via subspace projection among all classes based on the functional principal component analysis (FPCA) model.The BPC approach accounts for both the means and the modes of variation differentials among classes while other classical functional classification methods consider the differences in mean functions only. Practical performance of the proposed method is demonstrated through simulation studies and a real data example of matrix assisted laser desorption (MALDI) mass spectrometry data provided by Dr. Yu Shyr of Vanderbilt University. The proposed method is also compared with other previous functional classification approaches. Overall, the BPC method outperforms the other methods when the eigenspaces among classes are significantly distinct.For classifying the MALDI mass spectrometry data, we found that functional classification methods perform better then multivariate data approaches and applying the FPCA for dimension reduction is advantageous to improving the accuracy of classification. |
第三語言摘要 | |
論文目次 |
目錄 1 緒論.. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. 1 2 文獻探討.. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. 3 2.1 函數型主成份分析.. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. 3 2.2 KCFC 分群演算法.. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. 4 2.3 羅吉斯迴歸.. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. 6 2.4 其他分類方法.. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. 8 3 函數型主成份分析所建構之分類方法.. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. 10 3.1 估計方法.. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. 10 3.2 最佳預測曲線分類準則.. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. 12 3.3 FPCA 建構之函數型羅吉斯迴歸.. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. 14 4 模擬研究.. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. 15 4.1 模擬設計.. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. 15 4.2 模擬結果與分析.. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. 22 4.2.1 樣本數對分類正確性的影響. . . . . . . . . . . . . . . . . . . . 23 4.2.2 時間點個數對分類正確性的影響. . . . . . . . . . . . . . . . . . 28 4.2.3 兩類樣本數不均等對分類正確性的影響. . . . . . . . . . . . . . 33 5 實例分析.. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. 44 5.1 資料介紹.. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. 44 5.2 評估準則與程序.. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. 44 5.3 結果與分析.. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. 47 6 結論.. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. 57 參考文獻.. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. 59 附錄.. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. 62 表目錄 表4-1 模擬研究架構. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 表5-1 MALDI-TOF 資料配對情形. . . . . . . . . . . . . . . . . . . . . . . 46 表5-2 MALDI 資料之分類結果(無平滑估計) . . . . . . . . . . . . . . . . . 53 表5-3 MALDI 資料之分類結果(有平滑估計) . . . . . . . . . . . . . . . . . 54 表5-4 MALDI 資料之分類結果(無限制兩類比例下4次交叉驗證) . . . . . . 55 表5-5 MALDI 資料之分類結果(有限制兩類比例下4次交叉驗證) . . . . . . 56 圖目錄 圖4-1 在模式A 以及n = 40,m = 11的情況下之兩類曲線. . . . . . . . . . . . 19 圖4-2 在模式B 以及n = 40,m = 11的情況下之兩類曲線. . . . . . . . . . . . 20 圖4-3 在模式C 以及n = 40,m = 11的情況下之兩類曲線. . . . . . . . . . . . 21 圖4-4 模式A 在不同樣本數下分類正確性的比較. . . . . . . . . . . . . . . . 25 圖4-5 模式B 在不同樣本數下分類正確性的比較. . . . . . . . . . . . . . . . 26 圖4-6 模式C 在不同樣本數下分類正確性的比較. . . . . . . . . . . . . . . . 27 圖4-7 模式A 在不同時間點個數下分類正確性的比較. . . . . . . . . . . . . 30 圖4-8 模式B 在不同時間點個數下分類正確性的比較. . . . . . . . . . . . . 31 圖4-9 模式C 在不同時間點個數下分類正確性的比較. . . . . . . . . . . . . 32 圖4-10 模式A 在兩類樣本數不同下分類正確性的比較. . . . . . . . . . . . . 35 圖4-11 模式B 在兩類樣本數不同下分類正確性的比較. . . . . . . . . . . . . 36 圖4-12 模式C 在兩類樣本數不同下分類正確性的比較. . . . . . . . . . . . . 37 圖4-13 模式A 在兩類樣本數不同下第一類正確性的比較. . . . . . . . . . . . 38 圖4-14 模式B 在兩類樣本數不同下第一類正確性的比較. . . . . . . . . . . . 39 圖4-15 模式C 在兩類樣本數不同下第一類正確性的比較. . . . . . . . . . . . 40 圖4-16 模式A 在兩類樣本數不同下第二類正確性的比較. . . . . . . . . . . . 41 圖4-17 模式B 在兩類樣本數不同下第二類正確性的比較. . . . . . . . . . . . 42 圖4-18 模式C 在兩類樣本數不同下第二類正確性的比較. . . . . . . . . . . . 43 圖5-1 原始質荷比之質譜圖(上圖) 與原始質荷比之平均函數質譜圖(下圖) . 47 圖5-2 等距質荷比之質譜圖(上圖) 與等距質荷比之平均函數質譜圖(下圖) . 48 圖5-3 根據條件模式(4) 估計之的特徵函數. . . . . . . . . . . . . . . . . . . 49 圖5-4 根據邊際模式(1) 估計之的特徵函數與主成份分數. . . . . . . . . . . 50 |
參考文獻 |
Ash, R. B. and Gardner, M. F. (1975) Topics in Stochastic Processes.New York: Academic Press. Boser, B. E., Guyon, I. M. and Vapnik, V. N. (1992) A training algorithm for optimal margin classifiers. Proceedings of the Fifth Annual Workshop on Computational Learning Theory., 144-152. Chiou, J.-M., Muller, H.-G. and Wang, J.-L. (2003 Functional quasi-likelihood regression model with smooth random effects. Journal of the Royal Statistical Society Series, B65: 405-423. Chiou, J.-M. and Li, P.-L. (2007) Functional clustering and identifying substructures of longitudinal data. Journal of the Royal Statistical Society Series, B69(4): 679-699. Chiou, J.-M. and Li, P.-L. (2008) Correlaion-Based Functional Clustering via Subspace Projection Journal of the American Statistical Association, 103: 1684-1692. Escabias, M., Aguilera, A. M., Valderrama, M. J. (2004) Principal component estimation of functional logistic regression: Discussion of two different approaches. Journal of Nonparametric Statistics, 16: 365-384. Escabias, M., Aguilera, A. M., Valderrama, M. J. (2005) Modelling environmental data by functional principal component logistic regression. Environmetrics, 16: 95-107. Heckman, N. E. and Zamar, R. H. (2000) Comparing the Shapes of Regression Functions.Biometrika, 87: 135-144. Hosmer, D. W. and Lemeshow, S. (2000) Applied Logistic Regression. Second Edition, Wiley. Lachenbruch, P. A. (1975) Discriminant Analysis.Hafner Press, New York. Mirre, E.deNooa, Bart, J.A.,Mertensb, Aliye, Ozalpc, Marco R. Bladergroenc, Martijn, P. J., Cornelis, J. H., Andre, M. Deelderc, Rob, A. E. M.(2006) Detection of colorectal cancer using MALDI-TOF serum protein profiling. European Journal of cancer, 42: 1068-1076. Muller, H. G. and Stadtmuller, U. (2005) Generalized Functional Linear Models. The Annals of Statistics, 33: 774-805. Heckman, N. E. and Zamar, R. H. (2000) Comparing the shape of regression functions. Biometrika, 87: 135-144. Ramsay, J. O. and Silverman, B. W. (2005) Functional data analysis. Springer series in statistics. Shyr, Y. and Kim, K. (2003) Weighted flexible compound covariate method for classifying microarray data. In D Berrar (Ed.), A Practical Approach to Microarray Data Analysis. New York, NY: Kluwer Academic, 186-200. Tanaka, K., Waki, H., Ido, Y., Akita, S., Yoshida, Y., Yoshida, T. (1988).Protein and polymer analyses up to m/z 100000 by laser ionization time-of-flight mass spectrometry. Rapid Commun Mass Spectrum, 2: 153-155. Villa, N. and Rossi, F. (2006) Support vector machine for functional data classification. Neurocomputing, 69: 730-742. Yao, F., Muller, H. G., Clifford, A. J., Dueker, S. R., Follett, J., Lin, Y., Buchholz, B. A. and Vogel, J. S. (2003) Shrinkage estimation for functional principal component scores, with application to the population kinetics of plasma folate. Biometrics, 59: 676-685. Yildiz, B. P., Shyr, Y., Rahman, S. M., Wardwell, N. R., Zimmerman, L. J., Shakhtour, B. Gray, W. H., Chen, S., Li, M., Roder, H., Liebler, D. C., Bigbee, W. L., Siegfried, J. M., Weissfeld, J. L., Gonzalez, A. L., Ninan, M., Johnson, D. H., Carbone, D. P., Caprioli, R. M. and Massion, P. P. (2007)Diagnostic Accuracy of MALDI Mass Spectrometric Analysis of Unfractionated Serum in Lung Cancer.Journal of Thoracic Oncology, 2: 893-901. |
論文全文使用權限 |
如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信