§ 瀏覽學位論文書目資料
  
系統識別號 U0002-2707201016055600
DOI 10.6846/TKU.2010.01009
論文名稱(中文) 函數型主成份分析於曲線資料分類問題之應用
論文名稱(英文) Classification Using Functional Principal Component Analysis for Curve Data
第三語言論文名稱
校院名稱 淡江大學
系所名稱(中文) 統計學系碩士班
系所名稱(英文) Department of Statistics
外國學位學校名稱
外國學位學院名稱
外國學位研究所名稱
學年度 98
學期 2
出版年 99
研究生(中文) 王哲秋
研究生(英文) Che-Chiu Wang
學號 697650173
學位類別 碩士
語言別 繁體中文
第二語言別
口試日期 2010-06-24
論文頁數 106頁
口試委員 指導教授 - 李百靈
委員 - 林建華
委員 - 陳怡如
關鍵字(中) 分類
曲線資料
函數型主成份分析
關鍵字(英) Classification
Curve Data
Functional Principal Components Analysis
第三語言關鍵字
學科別分類
中文摘要
本文提出一最佳預測曲線分類準則來分析曲線資料,在假設不同類別之隨機曲線的平均函數與特徵函數是相異的情況下,利用函數型主成份分析建立各類曲線的模式。對某一特定的觀測曲線,最佳預測曲線分類準則是以此觀測曲線與根據各類別模式所得之配適曲線的最小距離決定此曲線的最佳分類。本文以數值模擬研究與一組實際資料做為新方法的驗證,所分析的實際資料則是由美國范德堡大學癌症生物統計中心所提供的介質輔助雷射脫附游離(Matrix Assisted Laser Desorption, MALDI) 資料。從數值模擬研究與實際資料可以發現, 當各類別的特徵函數不同時,最佳預測曲線分類準則其結果是較其他方法有優勢的。此外,函數型分類方法於曲線分類之表現較多變量分類方法好,而利用函數型主成份分析有助於曲線資料的分類。
英文摘要
We propose a best predicted curve (BPC) classification criterion for classifying the curve data. The data are viewed as realizations of a mixture of stochastic processes and each sub-process corresponds to a known class. Under the assumption that all the subprocesses have different mean functions and eigenspaces, an observed curve is classified into the best predicted class by minimizing the distance between the observed and predicted curves via subspace projection among all classes based on the functional principal component analysis (FPCA) model.The BPC approach accounts for both the means and the modes of variation differentials among classes while other classical functional classification methods consider the differences in mean functions only. Practical performance of the proposed method is demonstrated  through simulation studies and a real data example of matrix assisted laser desorption (MALDI) mass spectrometry data provided by Dr. Yu Shyr of Vanderbilt University. The proposed method is also compared with other previous functional classification approaches. Overall, the BPC method outperforms the other methods when the eigenspaces among classes are significantly distinct.For classifying the MALDI mass spectrometry data, we found that functional classification methods perform better then multivariate data approaches and applying the FPCA for dimension reduction is  advantageous to improving the accuracy of classification.
第三語言摘要
論文目次
目錄
1 緒論.. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. 1
2 文獻探討.. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. ..  3
2.1 函數型主成份分析.. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. ..  3
2.2 KCFC 分群演算法.. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. ..  4
2.3 羅吉斯迴歸.. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. ..  6
2.4 其他分類方法.. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. ..  8
3 函數型主成份分析所建構之分類方法.. .. .. .. .. .. .. .. .. .. .. .. .. .. .. ..  10
3.1 估計方法.. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. ..  10
3.2 最佳預測曲線分類準則.. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. ..  12
3.3 FPCA 建構之函數型羅吉斯迴歸.. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. ..  14
4 模擬研究.. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. ..  15
4.1 模擬設計.. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. ..  15
4.2 模擬結果與分析.. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. ..  22
4.2.1 樣本數對分類正確性的影響. . . . . . . . . . . . . . . . . . . .  23
4.2.2 時間點個數對分類正確性的影響. . . . . . . . . . . . . . . . . .  28
4.2.3 兩類樣本數不均等對分類正確性的影響. . . . . . . . . . . . . .  33
5 實例分析.. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. ..  44
5.1 資料介紹.. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. ..  44
5.2 評估準則與程序.. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. ..  44
5.3 結果與分析.. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. ..  47
6 結論.. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. ..  57
參考文獻.. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. ..   59
附錄.. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. ..   62
表目錄
表4-1 模擬研究架構. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
表5-1 MALDI-TOF 資料配對情形. . . . . . . . . . . . . . . . . . . . . . . 46
表5-2 MALDI 資料之分類結果(無平滑估計) . . . . . . . . . . . . . . . . . 53
表5-3 MALDI 資料之分類結果(有平滑估計) . . . . . . . . . . . . . . . . . 54
表5-4 MALDI 資料之分類結果(無限制兩類比例下4次交叉驗證) . . . . . . 55
表5-5 MALDI 資料之分類結果(有限制兩類比例下4次交叉驗證) . . . . . . 56
圖目錄
圖4-1 在模式A 以及n = 40,m = 11的情況下之兩類曲線. . . . . . . . . . . . 19
圖4-2 在模式B 以及n = 40,m = 11的情況下之兩類曲線. . . . . . . . . . . . 20
圖4-3 在模式C 以及n = 40,m = 11的情況下之兩類曲線. . . . . . . . . . . . 21
圖4-4 模式A 在不同樣本數下分類正確性的比較. . . . . . . . . . . . . . . . 25
圖4-5 模式B 在不同樣本數下分類正確性的比較. . . . . . . . . . . . . . . . 26
圖4-6 模式C 在不同樣本數下分類正確性的比較. . . . . . . . . . . . . . . . 27
圖4-7 模式A 在不同時間點個數下分類正確性的比較. . . . . . . . . . . . . 30
圖4-8 模式B 在不同時間點個數下分類正確性的比較. . . . . . . . . . . . . 31
圖4-9 模式C 在不同時間點個數下分類正確性的比較. . . . . . . . . . . . . 32
圖4-10 模式A 在兩類樣本數不同下分類正確性的比較. . . . . . . . . . . . . 35
圖4-11 模式B 在兩類樣本數不同下分類正確性的比較. . . . . . . . . . . . . 36
圖4-12 模式C 在兩類樣本數不同下分類正確性的比較. . . . . . . . . . . . . 37
圖4-13 模式A 在兩類樣本數不同下第一類正確性的比較. . . . . . . . . . . . 38
圖4-14 模式B 在兩類樣本數不同下第一類正確性的比較. . . . . . . . . . . . 39
圖4-15 模式C 在兩類樣本數不同下第一類正確性的比較. . . . . . . . . . . . 40
圖4-16 模式A 在兩類樣本數不同下第二類正確性的比較. . . . . . . . . . . . 41
圖4-17 模式B 在兩類樣本數不同下第二類正確性的比較. . . . . . . . . . . . 42
圖4-18 模式C 在兩類樣本數不同下第二類正確性的比較. . . . . . . . . . . . 43
圖5-1 原始質荷比之質譜圖(上圖) 與原始質荷比之平均函數質譜圖(下圖) . 47
圖5-2 等距質荷比之質譜圖(上圖) 與等距質荷比之平均函數質譜圖(下圖) . 48
圖5-3 根據條件模式(4) 估計之的特徵函數. . . . . . . . . . . . . . . . . . . 49
圖5-4 根據邊際模式(1) 估計之的特徵函數與主成份分數. . . . . . . . . . . 50
參考文獻
Ash, R. B. and Gardner, M. F. (1975) Topics in Stochastic Processes.New York: Academic Press.

Boser, B. E., Guyon, I. M. and Vapnik, V. N. (1992) A training algorithm for optimal margin classifiers. Proceedings of the Fifth Annual Workshop on Computational Learning Theory., 144-152.

Chiou, J.-M., Muller, H.-G. and Wang, J.-L. (2003 Functional quasi-likelihood regression model with smooth random effects. Journal of the Royal Statistical Society Series, B65: 405-423.

Chiou, J.-M. and Li, P.-L. (2007) Functional clustering and identifying substructures of longitudinal data. Journal of the Royal Statistical Society Series, B69(4): 679-699.

Chiou, J.-M. and Li, P.-L. (2008) Correlaion-Based Functional Clustering via Subspace Projection Journal of the American Statistical Association, 103: 1684-1692.

Escabias, M., Aguilera, A. M., Valderrama, M. J. (2004) Principal component estimation of functional logistic regression: Discussion of two different approaches. Journal of Nonparametric Statistics, 16: 365-384.

Escabias, M., Aguilera, A. M., Valderrama, M. J. (2005) Modelling environmental data by functional principal 
component logistic regression. Environmetrics, 16: 95-107.

Heckman, N. E. and Zamar, R. H. (2000) Comparing the Shapes of Regression Functions.Biometrika, 87: 135-144.

Hosmer, D. W. and Lemeshow, S. (2000) Applied Logistic Regression. Second Edition, Wiley.

Lachenbruch, P. A. (1975) Discriminant Analysis.Hafner Press, New York.

Mirre, E.deNooa, Bart, J.A.,Mertensb, Aliye, Ozalpc, Marco R. Bladergroenc, Martijn, P. J., Cornelis, J. H., Andre, M. Deelderc, Rob, A. E. M.(2006) Detection of colorectal cancer using MALDI-TOF serum protein profiling. European  Journal of cancer, 42: 1068-1076.

Muller, H. G. and Stadtmuller, U. (2005) Generalized Functional Linear Models. The Annals of Statistics, 33: 774-805.

Heckman, N. E. and Zamar, R. H. (2000) Comparing the shape of regression functions. Biometrika, 87: 135-144.

Ramsay, J. O. and Silverman, B. W. (2005) Functional data analysis. Springer series in statistics.

Shyr, Y. and Kim, K. (2003) Weighted flexible compound covariate method for classifying microarray data. In D Berrar (Ed.), A Practical Approach to Microarray Data Analysis. New York, NY: Kluwer Academic, 186-200.

Tanaka, K., Waki, H., Ido, Y., Akita, S., Yoshida, Y., Yoshida, T. (1988).Protein and polymer analyses up to m/z 100000 by laser ionization time-of-flight mass spectrometry.
Rapid Commun Mass Spectrum, 2: 153-155.

Villa, N. and Rossi, F. (2006) Support vector machine for functional data classification. Neurocomputing, 69: 730-742.

Yao, F., Muller, H. G., Clifford, A. J., Dueker, S. R., Follett, J., Lin, Y., Buchholz, B. A. and Vogel, J. S. (2003) Shrinkage estimation for functional principal component scores, with application to the population kinetics of plasma folate. Biometrics, 59: 676-685.

Yildiz, B. P., Shyr, Y., Rahman, S. M., Wardwell, N. R., Zimmerman, L. J., Shakhtour, B. Gray, W. H., Chen, S., Li, M., Roder, H., Liebler, D. C., Bigbee, W. L., Siegfried, J. M., Weissfeld, J. L., Gonzalez, A. L., Ninan, M., Johnson, D. H., Carbone, D. P., Caprioli, R. M. and Massion, P. P. (2007)Diagnostic Accuracy of MALDI Mass Spectrometric Analysis of Unfractionated Serum in Lung Cancer.Journal of Thoracic Oncology, 2: 893-901.
論文全文使用權限
校內
紙本論文於授權書繳交後5年公開
同意電子論文全文授權校園內公開
校內電子論文延後至2020-06-24公開
校內書目立即公開
校外
同意授權
校外電子論文延後至2020-06-24公開

如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信