| 系統識別號 | U0002-2207202410223400 |
|---|---|
| 論文名稱(中文) | 函數型子空間投影分類方法之探討 |
| 論文名稱(英文) | Classification of Functional Data Using Subspace Projection |
| 第三語言論文名稱 | |
| 校院名稱 | 淡江大學 |
| 系所名稱(中文) | 統計學系應用統計學碩士班 |
| 系所名稱(英文) | Department of Statistics |
| 外國學位學校名稱 | |
| 外國學位學院名稱 | |
| 外國學位研究所名稱 | |
| 學年度 | 112 |
| 學期 | 2 |
| 出版年 | 113 |
| 研究生(中文) | 邱俊捷 |
| 研究生(英文) | Chun-Chieh Chiu |
| 學號 | 611650101 |
| 學位類別 | 碩士 |
| 語言別 | 繁體中文 |
| 第二語言別 | |
| 口試日期 | 2024-06-21 |
| 論文頁數 | 84頁 |
| 口試委員 |
指導教授
-
李百靈(plli@gms.tku.edu.tw)
口試委員 - 陳怡如(yjchen@gms.tku.edu.tw) 口試委員 - 林建華(mathematica35@gmail.com) |
| 關鍵字(中) |
分類分析 函數型資料 函數型主成份分析 子空間投影方法 |
| 關鍵字(英) |
Classification Functional Data Functional Principal Component Analysis Subspace Projection |
| 第三語言關鍵字 | |
| 學科別分類 | |
| 中文摘要 |
函數型資料的分類問題在實務上有廣泛應用且具有挑戰性,本研究主要想探討根據子空間投影概念所建構的函數型分類方法。本研究提出能同時考慮單變量函數型與非函數型預測變數的分類方法,並進一步探討如何應用至多變量函數型資料的分類問題上。本研究所提出的子空間投影分類方法主要以函數型主成份分析(FPCA)模型為架構,透過將觀測函數與其在各分類之子空間投影的相對距離作為預測變數,並利用多分類羅吉斯迴歸進行分類。由數值模擬研究可驗證本研究所提出之分類方法能有效辨識單變量函數型資料在平均函數與共變異函數等特徵上的差異,而當同時考慮具有鑑別力的非函數型預測變數時則可提高分類正確率。本研究亦透過三組實例來介紹子空間投影分類方法的應用與表現。 |
| 英文摘要 |
Functional data classification has broad applications but is also challenging. This study aims to investigate functional data classification using subspace projection. We propose a classification method that considers univariate functional predictor and additional scalar predictors simultaneously. Moreover, we discuss expanding this method to classify multivariate functional data. Through the functional principal component analysis (FPCA) framework, we use the relative distance between the observed function and its projection onto each subspace as the predictor for multinomial logistic regression. Simulation studies demonstrate that the proposed method effectively identifies differences in mean and covariance functions across classes. Furthermore, incorporating an informative scalar predictor enhances classification accuracy. We illustrate the practical performance of the proposed methods through three real datasets. |
| 第三語言摘要 | |
| 論文目次 |
目錄
圖目錄 ......................................... IV
表目錄..........................................VIII
第一章 緒論......................................... 1
第二章 文獻回顧....................................... 3
2.1 函數型主成份分析 ............................. 3
2.2 子空間投影分群與分類方法 ........................ 4
2.2.1 K中心函數型分群方法 ...................... 4
2.2.2 考慮解釋變數Z之子空間投影分類法 .............. 6
2.2.3 機率分群方法............................ 7
第三章 研究方法....................................... 8
3.1 以機率模型建構之子空間投影分類 .................... 8
3.2 多變量函數型資料之分類 ......................... 11
3.2.1 最小距離分類準則 ......................... 12
3.2.2 最大機率分類準則 ......................... 13
3.3 估計方法 .................................. 14
第四章 數值模擬研究.................................... 16
4.1 模擬設計 .................................. 16
4.2 模擬結果 .................................. 21
4.2.1 探討時間點個數對分類的影響................... 22
4.2.2 探討隨機誤差變異大小對分類的影響............... 24
4.2.3 探討樣本數大小對分類的影響................... 25
4.2.4 同時考慮函數型與單變量預測變數之分類 ............ 27
4.3 模擬結果總結................................ 29
第五章 實例分析....................................... 30
5.1 ECG200資料集............................... 30
5.1.1 ECG200資料介紹 ......................... 30
5.1.2 ECG200分類結果 ......................... 33
5.2 加拿大雨量資料集 ............................. 36
5.2.1 資料介紹 .............................. 36
5.2.2 加拿大雨量分類結果........................ 39
5.3 梅爾頻率倒譜係數資料集 ......................... 41
5.3.1 資料介紹 .............................. 41
5.3.2 分類結果 .............................. 45
第六章 結論.........................................48
參考文獻.........................................50
圖目錄
圖4.1 CaseA與CaseB設計下的三類平均函數圖形............ 17
圖 4.2 Case 1 與 Case 2 設計下的三類特徵函數圖形,由上至下分別為第 一類、第二類與第三類........................... 18
圖4.3 在σ2 =0.09,樣本總數n=300與m=40下的三類模擬資料曲線圖 19
圖4.4 在Casea至Cased下解釋變數Z 在三類的模擬資料分佈圖 . . . . 20
圖4.5 在σ2 =0.09與n=300下,各分類方法在m為10、20、40與60 時1000次模擬測試樣本之平均分類正確率 ............... 24
圖4.6 在m=40與n=300下,各分類方法在σ2 為0.01、0.09與0.25 時1000次模擬測試樣本之平均分類正確率 ............... 25
圖4.7 在時間點個數m=40與σ2 =0.09,樣本數n為120與300下, 各種分類方法測試樣本之分類正確率................... 26
圖5.1 ECG200資料集之訓練樣本的觀測心電圖............... 31
圖5.2 ECG200 資料集之訓練樣本兩類估計之平均函數與共變異數函數 . . 31
圖5.3 ECG200資料集之兩類別訓練樣本特徵函數 ............. 33
圖5.4 加拿大35氣候站位置圖 ........................ 36
圖5.5 加拿大每日平均降雨量原始資料.................... 37
圖5.6 加拿大雨量資料集平均函數與共變異數函數 ............. 38
圖5.7 加拿大雨量資料集之特徵函數 ..................... 39
圖5.8 梅爾頻率倒譜係數MFCC1係數資料 ................. 43
圖5.9 MFCC1訓練樣本之平均函數 ..................... 44
圖5.10 MFCC1訓練樣本之各類特徵函數 .................. 44
圖 C.1 MFCC2係數在10個分類的原始資料圖............... 66
圖 C.2 MFCC3係數在10個分類的原始資料圖............... 67
圖 C.3 MFCC4係數在10個分類的原始資料圖............... 67
圖 C.4 MFCC5係數在10個分類的原始資料圖............... 68
圖 C.5 MFCC6係數在10個分類的原始資料圖............... 68
圖 C.6 MFCC7係數在10個分類的原始資料圖............... 69
圖 C.7 MFCC8係數在10個分類的原始資料圖............... 69
圖 C.8 MFCC9係數在10個分類的原始資料圖............... 70
圖 C.9 MFCC10係數在10個分類的原始資料圖 .............. 70
圖 C.10 MFCC11係數在10個分類的原始資料圖 ............. 71
圖 C.11 MFCC12係數在10個分類的原始資料圖 ............. 71
圖 C.12 MFCC13係數在10個分類的原始資料圖 ............. 72
圖 C.13 MFCC2訓練樣本之各類平均函數 ................. 72
圖 C.14 MFCC3訓練樣本之各類平均函數 ................. 73
圖 C.15 MFCC4訓練樣本之各類平均函數 ................. 73
圖 C.16 MFCC5訓練樣本之各類平均函數 ................. 74
圖 C.17 MFCC6訓練樣本之各類平均函數 ................. 74
圖 C.18 MFCC7訓練樣本之各類平均函數 ................. 75
圖 C.19 MFCC8訓練樣本之各類平均函數 ................. 75
圖 C.20 MFCC9訓練樣本之各類平均函數 ................. 76
圖 C.21 MFCC10訓練樣本之各類平均函數................. 76
圖 C.22 MFCC11訓練樣本之各類平均函數................. 77
圖 C.23 MFCC12訓練樣本之各類平均函數................. 77
圖 C.24 MFCC13訓練樣本之各類平均函數................. 78
圖 C.25 MFCC2訓練樣本之各類特徵函數 ................. 78
圖 C.26 MFCC3訓練樣本之各類特徵函數 ................. 79
圖 C.27 MFCC4訓練樣本之各類特徵函數 ................. 79
圖 C.28 MFCC5訓練樣本之各類特徵函數 ................. 80
圖 C.29 MFCC6訓練樣本之各類特徵函數 ................. 80
圖 C.30 MFCC7訓練樣本之各類特徵函數 ................. 81
圖 C.31 MFCC8訓練樣本之各類特徵函數 ................. 81
圖 C.32 MFCC9訓練樣本之各類特徵函數 ................. 82
圖 C.33 MFCC10訓練樣本之各類特徵函數................. 82
圖 C.34 MFCC11訓練樣本之各類特徵函數................. 83
圖 C.35 MFCC12訓練樣本之各類特徵函數................. 83
圖 C.36 MFCC13訓練樣本之各類特徵函數................. 84
表目錄
表 4.1 各設計各類別之平均函數在不同時間點個數時之帶寬數值 . . . . . . 22
表 4.2 在時間點m=40、σ2 =0.09與n=300時,單變量預測變數 Z 的四種分配設計下,各分類方法 1000 次模擬測試樣本之平均分 類正確率與標準差 ............................. 28
表 5.1 不同分類方法對 ECG200 訓練樣本與測試樣本的分類正確率和敏感度與特異度................................ 35
表5.2 不同分類方法對加拿大雨量資料集分類結果 ............. 41
表 5.3 在 dSPFC-LR 與 SPFC 分類方法下正確預測率最高情況下之混淆矩陣..................................... 42
表5.4 dSPFC-LR分類方法在FVE為0.9時分類錯誤之氣象站 . . . . . . 42
表5.5 各 MFCC 以 dSPFC-LR 分類方法在給定各類主成份個數為 3 下結果 45
表5.6 同時考慮MFCC1至MFCC13之分類結果.............. 46
表5.7 各 MFCC 以 mdSPFC-LR 分類方法在給定主成份個數為 3 下每類可解釋變異比例............................... 47
表 A.1 在σ2 =0.01與樣本總數n=120下,時間點個數m為10,20, 40,60下,各分類方法訓練樣本之分類正確率.............. 53
表 A.2 在σ2 =0.09與樣本總數n=120下,時間點個數m為10,20, 40,60下,各分類方法訓練樣本之分類正確率.............. 54
表 A.3 在σ2 =0.25與樣本總數n=120下,時間點個數m為10,20, 40,60下,各分類方法訓練樣本之分類正確率.............. 55
表 A.4 在σ2 =0.01與樣本總數n=300下,時間點個數m為10,20, 40,60下,各分類方法訓練樣本之分類正確率.............. 56
表 A.5 在σ2 =0.09與樣本總數n=300下,時間點個數m為10,20, 40,60下,各分類方法訓練樣本之分類正確率.............. 57
表 A.6 在σ2 =0.25與樣本總數n=300下,時間點個數m為10,20, 40,60下,各分類方法訓練樣本之分類正確率.............. 58
表 B.1 在σ2 =0.01與樣本總數n=120下,時間點個數m為10,20, 40,60下,各分類方法測試樣本之分類正確率.............. 60
表 B.2 在σ2 =0.09與樣本總數n=120下,時間點個數m為10,20, 40,60下,各分類方法測試樣本之分類正確率.............. 61
表 B.3 在σ2 =0.25與樣本總數n=120下,時間點個數m為10,20, 40,60下,各分類方法測試樣本之分類正確率.............. 62
表 B.4 在σ2 =0.01與樣本總數n=300下,時間點個數m為10,20, 40,60下,各分類方法測試樣本之分類正確率.............. 63
表 B.5 在σ2 =0.09與樣本總數n=300下,時間點個數m為10,20, 40,60下,各分類方法測試樣本之分類正確率.............. 64
表 B.6 在σ2 =0.25與樣本總數n=300下,時間點個數m為10,20, 40,60下,各分類方法測試樣本之分類正確率.............. 65
|
| 參考文獻 |
[1] Bedda, M. and Hammami, N. (2010). Spoken Arabic Digit. UCI Machine Learning Repository. DOI: https://doi.org/10.24432/C52C9Q.
[2] Chiou, J.-M. and Li, P.-L. (2007). Functional clustering and identifying substruc- tures of longitudinal data. Journal of the Royal Statistical Society Series B: Statis- tical Methodology, 69(4):679–699.
[3] Fan, G., Cao, J., and Wang, J. (2010). Functional data classification for temporal gene expression data with kernel-induced random forests. In 2010 IEEE Symposium on Computational Intelligence in Bioinformatics and Computational Biology, pages 1–5. IEEE.
[4] Fan, J. and Gijbels, I. (1996). Local Polynomial Modelling and Its Applications: Monographs on Statistics and Applied Probability, 1st ed. CRC Press.
[5] Ferraty, F. and Vieu, P. (2006). Nonparametric Functional Data Analysis, 1st ed. Springer.
[6] Li, P.-L. and Chiou, J.-M. (2021). Functional clustering and missing value imputa- tion of traffic flow trajectories. Transportmetrica B: Transport Dynamics, 9(1):1–21.
[7] Li, P.-L., Chiou, J.-M., and Shyr, Y. (2017). Functional data classification using covariate-adjusted subspace projection. Computational Statistics & Data Analysis, 115:21–34.
[8] Möller, A., Tutz, G., and Gertheiss, J. (2016). Random forests for functional covariates. Journal of Chemometrics, 30(12):715–725.
[9] Nelder, J. A. and Wedderburn, R. W. (1972). Generalized linear models. Journal of the Royal Statistical Society Series A: Statistics in Society, 135(3):370–384.
[10] Olszewski, R. T. (2001). Generalized Feature Extraction for Structural Pattern Recognition in Time-Series Data. Carnegie Mellon University.
[11] Ramsay, J. and Silverman, B. (2005). Functional Data Analysis , 2nd ed. Springer.
[12] Yao, F., Müller, H.-G., and Wang, J.-L. (2005). Functional data analysis for sparse longitudinal data. Journal of the American Statistical Association, 100(470):577– 590.
|
| 論文全文使用權限 |
如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信