淡江大學覺生紀念圖書館 (TKU Library)
進階搜尋


  查詢圖書館館藏目錄
系統識別號 U0002-2707201016055600
中文論文名稱 函數型主成份分析於曲線資料分類問題之應用
英文論文名稱 Classification Using Functional Principal Component Analysis for Curve Data
校院名稱 淡江大學
系所名稱(中) 統計學系碩士班
系所名稱(英) Department of Statistics
學年度 98
學期 2
出版年 99
研究生中文姓名 王哲秋
研究生英文姓名 Che-Chiu Wang
學號 697650173
學位類別 碩士
語文別 中文
口試日期 2010-06-24
論文頁數 106頁
口試委員 指導教授-李百靈
委員-林建華
委員-陳怡如
中文關鍵字 分類  曲線資料  函數型主成份分析 
英文關鍵字 Classification  Curve Data  Functional Principal Components Analysis 
學科別分類 學科別自然科學統計
中文摘要 本文提出一最佳預測曲線分類準則來分析曲線資料,在假設不同類別之隨機曲線的平均函數與特徵函數是相異的情況下,利用函數型主成份分析建立各類曲線的模式。對某一特定的觀測曲線,最佳預測曲線分類準則是以此觀測曲線與根據各類別模式所得之配適曲線的最小距離決定此曲線的最佳分類。本文以數值模擬研究與一組實際資料做為新方法的驗證,所分析的實際資料則是由美國范德堡大學癌症生物統計中心所提供的介質輔助雷射脫附游離(Matrix Assisted Laser Desorption, MALDI) 資料。從數值模擬研究與實際資料可以發現, 當各類別的特徵函數不同時,最佳預測曲線分類準則其結果是較其他方法有優勢的。此外,函數型分類方法於曲線分類之表現較多變量分類方法好,而利用函數型主成份分析有助於曲線資料的分類。
英文摘要 We propose a best predicted curve (BPC) classification criterion for classifying the curve data. The data are viewed as realizations of a mixture of stochastic processes and each sub-process corresponds to a known class. Under the assumption that all the subprocesses have different mean functions and eigenspaces, an observed curve is classified into the best predicted class by minimizing the distance between the observed and predicted curves via subspace projection among all classes based on the functional principal component analysis (FPCA) model.The BPC approach accounts for both the means and the modes of variation differentials among classes while other classical functional classification methods consider the differences in mean functions only. Practical performance of the proposed method is demonstrated through simulation studies and a real data example of matrix assisted laser desorption (MALDI) mass spectrometry data provided by Dr. Yu Shyr of Vanderbilt University. The proposed method is also compared with other previous functional classification approaches. Overall, the BPC method outperforms the other methods when the eigenspaces among classes are significantly distinct.For classifying the MALDI mass spectrometry data, we found that functional classification methods perform better then multivariate data approaches and applying the FPCA for dimension reduction is advantageous to improving the accuracy of classification.
論文目次 目錄
1 緒論.. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. 1
2 文獻探討.. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. 3
2.1 函數型主成份分析.. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. 3
2.2 KCFC 分群演算法.. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. 4
2.3 羅吉斯迴歸.. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. 6
2.4 其他分類方法.. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. 8
3 函數型主成份分析所建構之分類方法.. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. 10
3.1 估計方法.. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. 10
3.2 最佳預測曲線分類準則.. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. 12
3.3 FPCA 建構之函數型羅吉斯迴歸.. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. 14
4 模擬研究.. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. 15
4.1 模擬設計.. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. 15
4.2 模擬結果與分析.. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. 22
4.2.1 樣本數對分類正確性的影響. . . . . . . . . . . . . . . . . . . . 23
4.2.2 時間點個數對分類正確性的影響. . . . . . . . . . . . . . . . . . 28
4.2.3 兩類樣本數不均等對分類正確性的影響. . . . . . . . . . . . . . 33
5 實例分析.. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. 44
5.1 資料介紹.. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. 44
5.2 評估準則與程序.. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. 44
5.3 結果與分析.. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. 47
6 結論.. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. 57
參考文獻.. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. 59
附錄.. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. 62
表目錄
表4-1 模擬研究架構. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
表5-1 MALDI-TOF 資料配對情形. . . . . . . . . . . . . . . . . . . . . . . 46
表5-2 MALDI 資料之分類結果(無平滑估計) . . . . . . . . . . . . . . . . . 53
表5-3 MALDI 資料之分類結果(有平滑估計) . . . . . . . . . . . . . . . . . 54
表5-4 MALDI 資料之分類結果(無限制兩類比例下4次交叉驗證) . . . . . . 55
表5-5 MALDI 資料之分類結果(有限制兩類比例下4次交叉驗證) . . . . . . 56
圖目錄
圖4-1 在模式A 以及n = 40,m = 11的情況下之兩類曲線. . . . . . . . . . . . 19
圖4-2 在模式B 以及n = 40,m = 11的情況下之兩類曲線. . . . . . . . . . . . 20
圖4-3 在模式C 以及n = 40,m = 11的情況下之兩類曲線. . . . . . . . . . . . 21
圖4-4 模式A 在不同樣本數下分類正確性的比較. . . . . . . . . . . . . . . . 25
圖4-5 模式B 在不同樣本數下分類正確性的比較. . . . . . . . . . . . . . . . 26
圖4-6 模式C 在不同樣本數下分類正確性的比較. . . . . . . . . . . . . . . . 27
圖4-7 模式A 在不同時間點個數下分類正確性的比較. . . . . . . . . . . . . 30
圖4-8 模式B 在不同時間點個數下分類正確性的比較. . . . . . . . . . . . . 31
圖4-9 模式C 在不同時間點個數下分類正確性的比較. . . . . . . . . . . . . 32
圖4-10 模式A 在兩類樣本數不同下分類正確性的比較. . . . . . . . . . . . . 35
圖4-11 模式B 在兩類樣本數不同下分類正確性的比較. . . . . . . . . . . . . 36
圖4-12 模式C 在兩類樣本數不同下分類正確性的比較. . . . . . . . . . . . . 37
圖4-13 模式A 在兩類樣本數不同下第一類正確性的比較. . . . . . . . . . . . 38
圖4-14 模式B 在兩類樣本數不同下第一類正確性的比較. . . . . . . . . . . . 39
圖4-15 模式C 在兩類樣本數不同下第一類正確性的比較. . . . . . . . . . . . 40
圖4-16 模式A 在兩類樣本數不同下第二類正確性的比較. . . . . . . . . . . . 41
圖4-17 模式B 在兩類樣本數不同下第二類正確性的比較. . . . . . . . . . . . 42
圖4-18 模式C 在兩類樣本數不同下第二類正確性的比較. . . . . . . . . . . . 43
圖5-1 原始質荷比之質譜圖(上圖) 與原始質荷比之平均函數質譜圖(下圖) . 47
圖5-2 等距質荷比之質譜圖(上圖) 與等距質荷比之平均函數質譜圖(下圖) . 48
圖5-3 根據條件模式(4) 估計之的特徵函數. . . . . . . . . . . . . . . . . . . 49
圖5-4 根據邊際模式(1) 估計之的特徵函數與主成份分數. . . . . . . . . . . 50
參考文獻 Ash, R. B. and Gardner, M. F. (1975) Topics in Stochastic Processes.New York: Academic Press.

Boser, B. E., Guyon, I. M. and Vapnik, V. N. (1992) A training algorithm for optimal margin classifiers. Proceedings of the Fifth Annual Workshop on Computational Learning Theory., 144-152.

Chiou, J.-M., Muller, H.-G. and Wang, J.-L. (2003 Functional quasi-likelihood regression model with smooth random effects. Journal of the Royal Statistical Society Series, B65: 405-423.

Chiou, J.-M. and Li, P.-L. (2007) Functional clustering and identifying substructures of longitudinal data. Journal of the Royal Statistical Society Series, B69(4): 679-699.

Chiou, J.-M. and Li, P.-L. (2008) Correlaion-Based Functional Clustering via Subspace Projection Journal of the American Statistical Association, 103: 1684-1692.

Escabias, M., Aguilera, A. M., Valderrama, M. J. (2004) Principal component estimation of functional logistic regression: Discussion of two different approaches. Journal of Nonparametric Statistics, 16: 365-384.

Escabias, M., Aguilera, A. M., Valderrama, M. J. (2005) Modelling environmental data by functional principal
component logistic regression. Environmetrics, 16: 95-107.

Heckman, N. E. and Zamar, R. H. (2000) Comparing the Shapes of Regression Functions.Biometrika, 87: 135-144.

Hosmer, D. W. and Lemeshow, S. (2000) Applied Logistic Regression. Second Edition, Wiley.

Lachenbruch, P. A. (1975) Discriminant Analysis.Hafner Press, New York.

Mirre, E.deNooa, Bart, J.A.,Mertensb, Aliye, Ozalpc, Marco R. Bladergroenc, Martijn, P. J., Cornelis, J. H., Andre, M. Deelderc, Rob, A. E. M.(2006) Detection of colorectal cancer using MALDI-TOF serum protein profiling. European Journal of cancer, 42: 1068-1076.

Muller, H. G. and Stadtmuller, U. (2005) Generalized Functional Linear Models. The Annals of Statistics, 33: 774-805.

Heckman, N. E. and Zamar, R. H. (2000) Comparing the shape of regression functions. Biometrika, 87: 135-144.

Ramsay, J. O. and Silverman, B. W. (2005) Functional data analysis. Springer series in statistics.

Shyr, Y. and Kim, K. (2003) Weighted flexible compound covariate method for classifying microarray data. In D Berrar (Ed.), A Practical Approach to Microarray Data Analysis. New York, NY: Kluwer Academic, 186-200.

Tanaka, K., Waki, H., Ido, Y., Akita, S., Yoshida, Y., Yoshida, T. (1988).Protein and polymer analyses up to m/z 100000 by laser ionization time-of-flight mass spectrometry.
Rapid Commun Mass Spectrum, 2: 153-155.

Villa, N. and Rossi, F. (2006) Support vector machine for functional data classification. Neurocomputing, 69: 730-742.

Yao, F., Muller, H. G., Clifford, A. J., Dueker, S. R., Follett, J., Lin, Y., Buchholz, B. A. and Vogel, J. S. (2003) Shrinkage estimation for functional principal component scores, with application to the population kinetics of plasma folate. Biometrics, 59: 676-685.

Yildiz, B. P., Shyr, Y., Rahman, S. M., Wardwell, N. R., Zimmerman, L. J., Shakhtour, B. Gray, W. H., Chen, S., Li, M., Roder, H., Liebler, D. C., Bigbee, W. L., Siegfried, J. M., Weissfeld, J. L., Gonzalez, A. L., Ninan, M., Johnson, D. H., Carbone, D. P., Caprioli, R. M. and Massion, P. P. (2007)Diagnostic Accuracy of MALDI Mass Spectrometric Analysis of Unfractionated Serum in Lung Cancer.Journal of Thoracic Oncology, 2: 893-901.
論文使用權限
  • 同意紙本無償授權給館內讀者為學術之目的重製使用,於2015-07-29公開。
  • 同意授權瀏覽/列印電子全文服務,於2020-06-24起公開。


  • 若您有任何疑問,請與我們聯絡!
    圖書館: 請來電 (02)2621-5656 轉 2281 或 來信