§ 瀏覽學位論文書目資料
系統識別號 U0002-1908201912460600
DOI 10.6846/TKU.2019.00578
論文名稱(中文) 多變量函數型資料分群問題之探討
論文名稱(英文) Multivariate Functional Data Clustering
第三語言論文名稱
校院名稱 淡江大學
系所名稱(中文) 統計學系應用統計學碩士班
系所名稱(英文) Department of Statistics
外國學位學校名稱
外國學位學院名稱
外國學位研究所名稱
學年度 107
學期 2
出版年 108
研究生(中文) 王凱歆
研究生(英文) Kai-Hsin Wang
學號 606650074
學位類別 碩士
語言別 繁體中文
第二語言別
口試日期 2019-07-05
論文頁數 116頁
口試委員 指導教授 - 李百靈
委員 - 陳怡如
委員 - 林建華
關鍵字(中) 分群分析
函數型資料
主成份分析
關鍵字(英) Cluster analysis
Functional data analysis
Principal components analysis
第三語言關鍵字
學科別分類
中文摘要
隨著資料型態的多元化,函數型資料分析在許多領域受到廣泛的關注,其中多變量函數型資料的分群分析是個重要的實務應用之一。然而,在針對多變量函數型資料進行分群時,每個變數所提供的分群資訊不盡相同,甚至有可能各變數所帶有的分群資訊量也會隨之變動。本論文將提出一套加權多變量函數型~K-means分群演算法,利用sparse K-means~分群演算法決定各變數的權重函數,並將其加入傳統的多變量函數型K-means演算法中。由數值模擬研究結果可知,本研究提出之方法能選擇適當權重來改善傳統函數型K-means分群演算法之分群正確率,且在多數的情況下表現優於其他分群方法。
英文摘要
Functional data analysis has a wide range of applications in recent years. Multivariate functional data clustering is an important topic but has not been sufficiently discussed yet. This study is motivated by the situation that the cluster information could be dynamic varying and provided only by a few variables in practice. In this study, we will propose a weighted multivariate functional  K-means clustering algorithm, in which the weight function of each variable is determined by using the sparse K-means clustering algorithm. The simulation study shows that the proposed method can improve the clustering result of the conventional multivariate functional K-means clustering algorithm and outperforms the other methods in most cases.
第三語言摘要
論文目次
目錄
第一章 緒論1 
第二章 文獻回顧3 
 2.1 單變量函數型主成份分析3 
 2.2 單變量函數型分群方法4 
 2.3 多變量函數型分群方法5 
2.3.1 Model-based多變量函數型分群演算法5 
 2.4 Sparse K-means 分群演算法6 
第三章 研究方法9 
 3.1 多變量函數型主成份分析9 
3.1.1 多變量函數型資料9 
3.1.2 多變量函數型主成份分析10 
3.1.3 標準化多變量函數型主成份分析10 
3.1.4 估計方法11 
 3.2 加權多變量函數型$K$-means分群演算法13 
3.2.1 分群假設13 
3.2.2 分群準則13 
3.2.3 權重函數的決定14 
3.2.4 加權分群演算法步驟16 
3.2.5 權重函數之平滑估計17 
第四章 數值模擬研究19 
 4.1 模擬設計19 
 4.2 模擬結果27 
   4.2.1 平均函數對分群的影響29 
   4.2.2 特徵空間對分群的影響33 
   4.2.3 主成份分數之相關性對分群的影響36 
   4.2.4 特徵值大小對分群的影響37 
   4.2.5 測量誤差之變異程度對分群的影響42 
 4.3 權重函數之平滑估計對分群的影響45 
第五章  結論48 
參考文獻49 
附錄52 
 附錄A 不同設計下各方法之100次模擬CCR的平均值與標準差52 
 附錄B 三種平均函數設計下各方法100模擬平均CCR比較圖62 
 附錄C 兩種特徵空間設計下各方法100次模擬之平均CCR比較圖72 
 附錄D 主成份分數相關性設計下各方法100模擬之平均CCR比較圖82 
 附錄E 兩種特徵值設計之各方法100模擬之平均CCR比較圖87 
 附錄F 五種測量誤差變異數設計之各方法100模擬之平均CCR比較圖96 
 附錄G 各設計下平滑權重之100次模擬結果比較99 
 附錄H 不同時間點數量權重估計之100次模擬CCR平均值與標準差104

圖目錄
圖4.1 在Case 1 下各變數各群的平均函數圖形 21 
圖4.2 在Case 2 下各變數各群的平均函數圖形 21 
圖4.3 在Case 3 下各變數各群的平均函數圖形 21 
圖4.4 Case $mathbf a$ 中各變數各群的特徵函數圖形 23 
圖4.5 Case $mathbf b$ 中各變數各群的特徵函數圖形 23 
圖4.6 在固定 $sigma ^2_1=0.01$ 、 $	extbf R_1$ 與 $oldsymbol  lambda _1$ 下 Case 1a 兩群資料曲線圖 26 
圖4.7 在固定 $sigma ^2_1=0.01$ 、 $	extbf R_1$ 與 $oldsymbol  lambda _1$ 下 Case 1b 兩群資料曲線圖 26 
圖4.8 在 $sigma ^2_1$ 與 $ lambda _1$ 下,各方法三種平均函數設計之平均 CCR 31 
圖4.9 在 $sigma ^2_1$ 與 $ lambda _1$ 下,Case a 不同平均數設計之權重函數圖 33 
圖4.10 在 $sigma ^2_1$ 與 $ lambda _1$ 下,各方法兩種特徵空間設計之平均 CCR 35 
圖4.11 在 $sigma ^2_1$ 與 $ lambda _1$ 下,各方法五種主成份分數相關性結構設計之平均 CCR 37 
圖4.12 當特徵空間相同且誤差變異為 $sigma ^2_1$ 時,各方法兩種特徵值設計之平均 CCR 40 
圖4.13 當特徵空間相異且誤差變異為 $sigma ^2_1$ 時,各方法兩種特徵值設計之平均 CCR 41 
圖4.14 特徵空間相同且特徵值為 $ lambda _1$ 時,各方法五種測量誤差變異數設計之平均 CCR 43 
圖4.15 特徵空間相異且特徵值為 $ lambda _1$ 時,各方法五種測量誤差變異數設計之平均 CCR 44 
圖4.16 當主成份分數獨立 ($mathbf R_1)$ 且特徵值為 $ lambda _1$ 時各設計下平滑權重之結果比較 47 
圖4.17 當主成份分數獨立 ($mathbf R_1)$ 且特徵值為 $ lambda _2$ 時各設計下平滑權重之結果比較 47 
圖 B1 在 $sigma ^2_2$ 與 $ lambda _1$ 下,各方法三種平均函數設計之平均 CCR 63 
圖 B2 在 $sigma ^2_3$ 與 $ lambda _1$ 下,各方法三種平均函數設計之平均 CCR 64 
圖 B3 在 $sigma ^2_4$ 與 $ lambda _1$ 下,各方法三種平均函數設計之平均 CCR 65 
圖 B4 在 $sigma ^2_5$ 與 $ lambda _1$ 下,各方法三種平均函數設計之平均 CCR 66 
圖 B5 在 $sigma ^2_1$ 與 $ lambda _2$ 下,各方法三種平均函數設計之平均 CCR 67 
圖 B6 在 $sigma ^2_2$ 與 $ lambda _2$ 下,各方法三種平均函數設計之平均 CCR 68 
圖 B7 在 $sigma ^2_3$ 與 $ lambda _2$ 下,各方法三種平均函數設計之平均 CCR 69 
圖 B8 在 $sigma ^2_4$ 與 $ lambda _2$ 下,各方法三種平均函數設計之平均 CCR 70 
圖 B9 在 $sigma ^2_5$ 與 $ lambda _2$ 下,各方法三種平均函數設計之平均 CCR 71 
圖 C1 在 $sigma ^2_2$ 與 $ lambda _1$ 下,各方法兩種特徵空間設計之平均 CCR 73 
圖 C2 在 $sigma ^2_3$ 與 $ lambda _1$ 下,各方法兩種特徵空間設計之平均 CCR 74 
圖 C3 在 $sigma ^2_4$ 與 $ lambda _1$ 下,各方法兩種特徵空間設計之平均 CCR 75 
圖 C4 在 $sigma ^2_5$ 與 $ lambda _1$ 下,各方法兩種特徵空間設計之平均 CCR 76 
圖 C5 在 $sigma ^2_1$ 與 $ lambda _2$ 下,各方法兩種特徵空間設計之平均 CCR 77 
圖 C6 在 $sigma ^2_2$ 與 $ lambda _2$ 下,各方法兩種特徵空間設計之平均 CCR 78 
圖 C7 在 $sigma ^2_3$ 與 $ lambda _2$ 下,各方法兩種特徵空間設計之平均 CCR 79 
圖 C8 在 $sigma ^2_4$ 與 $ lambda _2$ 下,各方法兩種特徵空間設計之平均 CCR 80 
圖 C9 在 $sigma ^2_5$ 與 $ lambda _2$ 下,各方法兩種特徵空間設計之平均 CCR 81 
圖 D1 在 $sigma ^2_2$ 與 $ lambda _1$ 下,各方法五種主成份分數相關性結構設計之平均 CCR 82 
圖 D2 在 $sigma ^2_3$ 與 $ lambda _1$ 下,各方法五種主成份分數相關性結構設計之平均 CCR 83 
圖 D3 在 $sigma ^2_4$ 與 $ lambda _1$ 下,各方法五種主成份分數相關性結構設計之平均 CCR 83 
圖 D4 在 $sigma ^2_5$ 與 $ lambda _1$ 下,各方法五種主成份分數相關性結構設計之平均 CCR 84 
圖 D5 在 $sigma ^2_1$ 與 $ lambda _2$ 下,各方法五種主成份分數相關性結構設計之平均 CCR 84 
圖 D6 在 $sigma ^2_2$ 與 $ lambda _2$ 下,各方法五種主成份分數相關性結構設計之平均 CCR 85 
圖 D7 在 $sigma ^2_3$ 與 $ lambda _2$ 下,各方法五種主成份分數相關性結構設計之平均 CCR 85 
圖 D8 在 $sigma ^2_4$ 與 $ lambda _2$ 下,各方法五種主成份分數相關性結構設計之平均 CCR 86 
圖 D9 在 $sigma ^2_5$ 與 $ lambda _2$ 下,各方法五種主成份分數相關性結構設計之平均 CCR 86 
圖 E1 當特徵空間相同且誤差變異為 $sigma ^2_2$ 時,各方法兩種特徵值設計之平均 CCR 88 
圖 E2 當特徵空間相異且誤差變異為 $sigma ^2_2$ 時,各方法兩種特徵值設計之平均 CCR 89 
圖 E3 當特徵空間相同且誤差變異為 $sigma ^2_3$ 時,各方法兩種特徵值設計之平均 CCR 90 
圖 E4 當特徵空間相異且誤差變異為 $sigma ^2_3$ 時,各方法兩種特徵值設計之平均 CCR 91 
圖 E5 當特徵空間相同且誤差變異為 $sigma ^2_4$ 時,各方法兩種特徵值設計之平均 CCR 92 
圖 E6 當特徵空間相異且誤差變異為 $sigma ^2_4$ 時,各方法兩種特徵值設計之平均 CCR 93 
圖 E7 當特徵空間相同且誤差變異為 $sigma ^2_5$ 時,各方法兩種特徵值設計之平均 CCR 94 
圖 E8 當特徵空間相異且誤差變異為 $sigma ^2_5$ 時,各方法兩種特徵值設計之平均 CCR 95 
圖 F1 特徵空間相同且特徵值為 $ lambda _2$ 時,各方法五種測量誤差變異數設計之平均 CCR 97 
圖 F2 特徵空間相異且特徵值為 $ lambda _2$ 時,各方法五種測量誤差變異數設計之平均 CCR 98 
圖 G1 主成份分數相關性結構為 $mathbf R_2$ 且特徵值為 $ lambda _1$ 時各設計下平滑權重之結果比較 100 
圖 G2 主成份分數相關性結構為 $mathbf R_2$ 且特徵值為 $ lambda _2$ 時各設計下平滑權重之結果比較 100 
圖 G3 主成份分數相關性結構為 $mathbf R_3$ 且特徵值為 $ lambda _1$ 時各設計下平滑權重之結果比較 101 
圖 G4 主成份分數相關性結構為 $mathbf R_3$ 且特徵值為 $ lambda _2$ 時各設計下平滑權重之結果比較 101 
圖 G5 主成份分數相關性結構為 $mathbf R_4$ 且特徵值為 $ lambda _1$ 時各設計下平滑權重之結果比較 102 
圖 G6 主成份分數相關性結構為 $mathbf R_4$ 且特徵值為 $ lambda _2$ 時各設計下平滑權重之結果比較 102 
圖 G7 主成份分數相關性結構為 $mathbf R_5$ 且特徵值為 $ lambda _1$ 時各設計下平滑權重之結果比較 103 
圖 G8 主成份分數相關性結構為 $mathbf R_5$ 且特徵值為 $ lambda _2$ 時各設計下平滑權重之結果比較 103 

表目錄
表 4.1 各變數在三種平均函數設計之下兩群間差異情形 21 
表 4.2 五種相關性結構設計下各變數間種主成份分數相關程度與方向 25 
表 4.3 多變量函數型分群方法 28 
表 4.4 在 $sigma ^2_1$ 與 $ lambda _1$ 下,各方法之 CCR 的平均與標準差表 32 
表 4.5 在 $sigma ^2_1$ 與 $ lambda _2$ 下,各方法之 CCR 的平均與標準差表 39 
表 A1 在 $sigma ^2_1$ 與 $ lambda _1$ 下,各方法之 CCR 的平均與標準差表 52 
表 A2 在 $sigma ^2_2$ 與 $ lambda _1$ 下,各方法之 CCR 的平均與標準差表 53 
表 A3 在 $sigma ^2_3$ 與 $ lambda _1$ 下,各方法之 CCR 的平均與標準差表 54 
表 A4 在 $sigma ^2_4$ 與 $ lambda _1$ 下,各方法之 CCR 的平均與標準差表 55 
表 A5 在 $sigma ^2_5$ 與 $ lambda _1$ 下,各方法之 CCR 的平均與標準差表 56 
表 A6 在 $sigma ^2_1$ 與 $ lambda _2$ 下,各方法之 CCR 的平均與標準差表 57 
表 A7 在 $sigma ^2_2$ 與 $ lambda _2$ 下,各方法之 CCR 的平均與標準差表 58 
表 A8 在 $sigma ^2_3$ 與 $ lambda _2$ 下,各方法之 CCR 的平均與標準差表 59 
表 A9 在 $sigma ^2_4$ 與 $ lambda _2$ 下,各方法之 CCR 的平均與標準差表 60 
表 A10 在 $sigma ^2_5$ 與 $ lambda _2$ 下,各方法之 CCR 的平均與標準差表 61 
表 H1 $ lambda _1$ 且 $sigma ^2=0.01$ 時,不同時間點數量 wFKM 之平均 CCR (spline平滑法) 105 
表 H2 $ lambda _2$ 且 $sigma ^2=0.01$ 時,不同時間點數量 wFKM 之平均 CCR (spline平滑法) 106 
表 H3 $ lambda _1$ 且 $sigma ^2=0.09$ 時,不同時間點數量 wFKM 之平均 CCR (spline平滑法) 107 
表 H4 $ lambda _2$ 且 $sigma ^2=0.09$ 時,不同時間點數量 wFKM 之平均 CCR (spline平滑法) 108 
表 H5 $ lambda _1$ 且 $sigma ^2=0.25$ 時,不同時間點數量 wFKM 之平均 CCR (spline平滑法) 109 
表 H6 $ lambda _2$ 且 $sigma ^2=0.25$ 時,不同時間點數量 wFKM 之平均 CCR (spline平滑法) 110 
表 H7 $ lambda _1$ 且 $sigma ^2=0.01$ 時,不同時間點數量 wFKM 之平均 CCR (local平滑法) 111 
表 H8 $ lambda _2$ 且 $sigma ^2=0.01$ 時,不同時間點數量 wFKM 之平均 CCR (local平滑法) 112 
表 H9 $ lambda _1$ 且 $sigma ^2=0.09$ 時,不同時間點數量 wFKM 之平均 CCR (local平滑法) 113 
表 H10 $ lambda _2$ 且 $sigma ^2=0.09$ 時,不同時間點數量 wFKM 之平均 CCR (local平滑法) 114 
表 H11 $ lambda _1$ 且 $sigma ^2=0.25$ 時,不同時間點數量 wFKM 之平均 CCR (local平滑法) 115 
表 H12 $ lambda _2$ 且 $sigma ^2=0.25$ 時,不同時間點數量 wFKM 之平均 CCR (local平滑法) 116
參考文獻
C.Abraham, P.-A. Cornillon, E.Matzner-Lober, and N.Molinari,”Unsupervised curve clustering using b-splines,” Scandinavian journal of statistics, vol.30, no.3, pp. 581--595, 2003.

R.Blanquero, E.Carrizosa, A.Jim'enez-Cordero, and B.Mart'in-Barrag'an, “Variable selection in classification for
 multivariate functional data,” Information Sciences, vol. 481, pp. 445--462, 2019.

J.-M. Chiou and P.-L. Li, “Functional clustering and identifying substructures of longitudinal data,” Journal of the Royal Statistical Society: Series B (Statistical Methodology), vol.69, no.4, pp. 679--699, 2007.

J.-M. Chiou, Y.-T. Chen, and Y.-F. Yang, “Multivariate functional principal component analysis: A normalization approach,” Statistica Sinica, pp. 1571--1596, 2014.

J.Fan, I.Gijbels, T.-C. Hu, and L.-S. Huang, “A study of variable bandwidth selection for local polynomial regression,” Statistica Sinica, pp. 113--127, 1996.

D.Floriello and V.Vitelli, “Sparse clustering of functional data,” Journal of Multivariate Analysis, vol. 154, pp. 1--18, 2017.

F.Ieva, A.M. Paganoni, D.Pigoli, and V.Vitelli, “Multivariate functional clustering for the morphological analysis of electrocardiograph curves,” Journal of the Royal Statistical Society: Series C (Applied Statistics), vol.62, no.3, pp. 401--418, 2013.

J.Jacques and C.Preda, “Clustering multivariate functional data,” in COMPSTAT 2012, 2012, pp. 353--366.

J.Jacques and C.Preda, “Model-based clustering for multivariate functional data,” Computational Statistics & Data Analysis, vol.71, pp. 92--106, 2014.

G.M. James and C.A. Sugar, “Clustering for sparsely sampled functional data,” Journal of the American Statistical Association, vol.98, no. 462, pp. 397--408, 2003.

A.Martino, A.Ghiglietti, F.Ieva, and A.M. Paganoni, “A k-means procedure based on a mahalanobis type distance for clustering multivariate functional data,” Statistical Methods & Applications, vol.28, no.2, pp. 301--322, 2019.

J.O. Ramsay and C.Dalzell, “Some tools for functional data analysis,” Journal of the Royal Statistical Society: Series B (Methodological), vol.53, no.3, pp. 539--561, 1991.

L.M. Sangalli, P.Secchi, S.Vantini, and V.Vitelli, “Functional clustering and alignment methods with applications,” Communications in Applied and Industrial Mathematics, vol.1, no.1, pp. 205--224, 2010.

A.Singhal and D.E. Seborg, “Clustering multivariate time-series data,” Journal of Chemometrics: A Journal of the Chemometrics Society, vol.19, no.8, pp. 427--438, 2005.

T.Tarpey and K.K. Kinateder, “Clustering functional data,” Journal of classification, vol.20, no.1, pp. 093--114, 2003.

D.M. Witten and R.Tibshirani, “A framework for feature selection in clustering,” Journal of the American Statistical Association, vol. 105, no. 490, pp. 713--726, 2010.

F.Yao, H.-G. Muller, and J.-L. Wang, “Functional data analysis for sparse longitudinal data,” Journal of the American Statistical Association, vol. 100, no. 470, pp. 577--590, 2005.
論文全文使用權限
校內
紙本論文於授權書繳交後5年公開
同意電子論文全文授權校園內公開
校內電子論文於授權書繳交後5年公開
校外
同意授權
校外電子論文於授權書繳交後5年公開

如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信