§ 瀏覽學位論文書目資料
  
系統識別號 U0002-2308201522045700
DOI 10.6846/TKU.2015.00746
論文名稱(中文) 機率主成分分析於區間值資料之應用
論文名稱(英文) The Application of Probabilistic Principal Component Analysis to Interval-valued Data
第三語言論文名稱
校院名稱 淡江大學
系所名稱(中文) 數學學系碩士班
系所名稱(英文) Department of Mathematics
外國學位學校名稱
外國學位學院名稱
外國學位研究所名稱
學年度 103
學期 2
出版年 104
研究生(中文) 周鴻文
研究生(英文) Hung-Wen Chou
學號 602190117
學位類別 碩士
語言別 繁體中文
第二語言別
口試日期 2015-07-27
論文頁數 27頁
口試委員 指導教授 - 吳漢銘(hmwu@mail.tku.edu.tw)
委員 - 陳怡如
委員 - 蘇家玉
關鍵字(中) 區間資料
維度縮減
主成份分析
機率主成份分析
象徵性資料分析
關鍵字(英) Interval-valued data
dimension reduction
principal component analysis
probabilistic PCA
symbolic data analysis
第三語言關鍵字
學科別分類
中文摘要
主成分分析法 (principal component analysis, PCA)是一個
常用的維度縮減方法, 在象徵性資料分析 (symbolic data
analysis, SDA)中,更是熱門的研究主題。在本研究中,我們嘗試使
用另外一種維度縮減方法, 稱為機率主成分分析 PPCA
(probabilistic PCA) ,來應用於區間資料。其目的是對高維度的區
間資料做維度縮減,使得我們可以在低維度空間中觀察此區間資料
的結構及特性。首先透過頂點法或中心法將區間資料轉化成傳統單
一數值資料,再透過 PPCA 做維度縮減,將維度縮減後的區間資料投
影到二維空間,以利觀察其結構。我們在模擬研究中,以四種不同分
配及不同資料遺失比例,利用 PCA 以及 PPCA 去估計傳統資料以及
區間資料的維度縮減方向。最後我們使用兩個實際資料,金融資料及
臉部資料,比較 PCA 及 PPCA 的表現。最後結果發現,在沒有遺失值
的模擬研究中以及在實際完整資料的分析下,兩者方法並無明顯差
異,但是在模擬研究中,四種不同分配隨著資料遺失比例越高,PPCA
在維度縮減方向的估計上都比 PCA 來的準確。
英文摘要
Principal component analysis (PCA) is a widely used dimension reduction method. It is also one of popular research topics in the field of Symbolic Data Analysis (SDA). In this study, we applied the probabilistic PCA (PPCA), an alternative dimension reduction method, to the interval-valued data. We aim to reduce the dimensionality of the interval-valued data in high-dimensional space so that the structures and characteristics of the interval-valued data can be investigated in the lower dimensional space.Firstly, the interval-valued data is converted into the form of the traditional data table using the vertices or center method. Then the classical PCA and PPCA can be applied directly. In this way, we could explore the structure of the projected intervals in the two-dimensional space. In the simulation studies, we generate data using four different distributions with various proportions of missing observations. We evaluate the performance of PCA and PPCA in estimating the true dimension reduction directions based on the simulated traditional data and the simulated interval-valued data. The results shows that there was no significant difference between PCA and PPCA for complete data sets. However, the performance of PPCA is better than those of PCA when the data contains the higher proportion of missing observations. Finally, we apply PCA and PPCA to two real interval-valued data sets, the finance data and the face data.
第三語言摘要
論文目次
目錄
1 緒論 1
2 主成分分析於區間資料之維度縮減 2
2.1 中心式主成分分析 (Centers PCA, C-PCA) . . . . . . . . . . . . . . . . . . . . . . 2
2.2 頂點式主成分分析 (Vertices PCA, V-PCA) . . . . . . . . . . . . . . . . . . . . . . 3
3 機率主成分分析於區間資料之應用 4
3.1 機率主成分分析 (Probabilistic PCA, PPCA) . . . . . . . . . . . . . . . . . . . . . 5
3.2 中心式機率主成分分析 (Centers Probabilistic PCA, C-PPCA) 及頂點式機率主成分
分析 (Vertices Probabilistic PCA, V-PPCA) . . . . . . . . . . . . . . . . . . . . . 6
4 模擬研究 6
4.1 PCA 與 PPCA 的模擬研究 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
4.2 PCA 與 PPCA 於區間資料之模擬研究 . . . . . . . . . . . . . . . . . . . . . . . . . 12
5 實際區間資料之維度縮減 19
5.1 金融紀錄資料 (Finance data) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
5.2 人臉資料 (Face Data) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
6 結論與討論 24
7 參考文獻 26

圖目錄
圖 1 Normal(0, 1) 函數圖形 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
圖 2 Gamma(2, 1) 函數圖形 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
圖 3 Beta(6, 2) 函數圖形 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
圖 4 Beta(0.5, 0.5) 函數圖形 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
圖 5 X 1 ,··· ,X 5 來自 Normal(0, 1) 的模擬區間直方圖 :(a) 固定帶寬 , (b) 不固定帶寬。 . . 13
圖 6 X 1 ,··· ,X 5 來自 Gamma(2, 1) 的模擬區間直方圖 :(a) 固定帶寬 , (b) 不固定帶寬。 . . 14
圖 7 X 1 ,··· ,X 5 來自 Beta(6, 2) 的模擬區間直方圖 :(a) 固定帶寬 , (b) 不固定帶寬。 . . . . 15
圖 8 X 1 ,··· ,X 5 來自 Beta(0.5, 0.5) 的模擬區間直方圖 :(a) 固定帶寬 , (b) 不固定帶寬。 . . 16
圖 9 Finance data 透過 C-PCA 、 C-PPCA 、 V-PCA 、 V-PPCA 等四種方法降維並視覺化之
圖形 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
圖 10 Face data 中的六個變數示意圖 (Leroy et al, 1996) . . . . . . . . . . . . . . . . . 22
圖 11 face data 透過 C-PCA 、 C-PPCA 、 V-PCA 、 V-PPCA4 種方法降維並視覺化之圖形 . 23

表目錄
表 1 PCA 與 PPCA 在 Normal(0, 1) 分配與各種遺失比例下維度縮減至一個方向 , 並重複
模擬 200 次計算其特徵向量之平均值與標準差 ( 真實方向為 (1, 1, 1, 1, 0, 4)) 。 . . . . 8
表 2 PCA 與 PPCA 在 Gamma(2, 1) 分配與各種遺失比例下維度縮減至一個方向 , 並重複
模擬 200 次計算其特徵向量之平均值與標準差 ( 真實方向為 (1, 1, 1, 1, 0, 4)) 。 . . . . 9
表 3 PCA 與 PPCA 在 Beta(6, 2) 分配與各種遺失比例下維度縮減至一個方向 , 並重複模
擬 200 次計算其特徵向量之平均值與標準差 ( 真實方向為 (1, 1, 1, 1, 0, 4)) 。 . . . . . 10
表 4 PCA 與 PPCA 在 Beta(0.5, 0.5) 分配與各種遺失比例下維度縮減至一個方向 , 並重複
模擬 200 次計算其特徵向量之平均值與標準差 ( 真實方向為 (1, 1, 1, 1, 0, 4)) 。 . . . . 11
表 5 C-PCA 與 C-PPCA 在 Normal(0, 1) 之模擬區間值資料且在各種遺失比例下 , 維度縮
減至一個方向 , 並重複模擬 200 次計算其特徵向量之平均值與標準差 ( 真實方向為 (1, 1, 1, 1, 0, 4)) 。 13
表 6 C-PCA 與 C-PPCA 在 Gamma(2, 1) 之模擬區間值資料且在各種遺失比例下 , 維度縮
減至一個方向 , 並重複模擬 200 次計算其特徵向量之平均值與標準差 ( 真實方向為 (1, 1, 1, 1, 0, 4)) 。 14
表 7 C-PCA 與 C-PPCA 在 Beta(6, 2) 之模擬區間值資料且在各種遺失比例下 , 維度縮減至
一個方向 , 並重複模擬 200 次計算其特徵向量之平均值與標準差 ( 真實方向為 (1, 1, 1, 1, 0, 4)) 。 15
表 8 C-PCA 與 C-PPCA 在 Beta(0.5, 0.5) 之模擬區間值資料且在各種遺失比例下 , 維度縮
減至一個方向 , 並重複模擬 200 次計算其特徵向量之平均值與標準差 ( 真實方向為 (1, 1, 1, 1, 0, 4)) 。 16
表 9 V-PCA 與 V-PPCA 在 Normal(0, 1) 之模擬區間值資料且在各種遺失比例下 , 維度縮
減至一個方向 , 並重複模擬 200 次計算其特徵向量之平均值與標準差 ( 真實方向為 (1, 1, 1, 1, 0, 4)) 。 17
表 10 V-PCA 與 V-PPCA 在 Gamma(2, 1) 之模擬區間值資料且在各種遺失比例下 , 維度
縮減至一個方向 , 並重複模擬 200 次計算其特徵向量之平均值與標準差 ( 真實方向為 (1, 1, 1, 1, 0, 4)) 。 17
表 11 V-PCA 與 V-PPCA 在 Beta(6, 2) 之模擬區間值資料且在各種遺失比例下 , 維度縮減
至一個方向 , 並重複模擬 200 次計算其特徵向量之平均值與標準差 ( 真實方向為 (1, 1, 1, 1, 0, 4)) 。 18
III
表 12 V-PCA 與 V-PPCA 在 Beta(0.5, 0.5) 之模擬區間值資料且在各種遺失比例下 , 維度
縮減至一個方向 , 並重複模擬 200 次計算其特徵向量之平均值與標準差 ( 真實方向為 (1, 1, 1, 1, 0, 4)) 。 18
表 13 金融紀錄資料 (Finance data) (Vu, Vu & Foo, 2003) . . . . . . . . . . . . . . . . 19
表 14 Finance data 使用 C-PCA 、 C-PPCA 、 V-PCA 、 V-PPCA 4 種方法之特徵向量。 . . . 20
表 15 Face data 使用 C-PCA 、 C-PPCA 、 V-PCA 、 V-PPCA 4 種方法之特徵向量。 . . . . . 22
參考文獻
Billard, L. and Diday, E. (2006). Symbolic data analysis: conceptual statistics and data mining.
WILEY SERIES IN COMPUTATIONAL STATISTICS.
Billard, L. and Le-Rademacher, J. (2012). Symbolic covariance principal component analysis
and visualization for interval-valued data. Journal of Computational and Graphical Statis-
tics, 413-432.
Cazes, P., Douzal-Chouakria, A., Diday, E. and Schecktman, Y. (1997). Extension de l’analyse
en Composantes Principales des donnes de Type Intervalle. Revue Statistique Applique,
45, 5-24.
Chen, Y. S. and Wu, H. M. (2013). The application of sliced inverse regression for dimension
reduction of the interval-valued symbolic data. Journal of the Chinese Statistical Associa-
tion, 51(3), 327-351.
Douzal-Chouakria, A., Billard, L. and Diday, E. (2011). Principal components for interval-valued
observations. Statistical Analysis and Data Mining, 4(2), 229 - 246.
Douzal-Chouakria, A., Diday, E. and Cazes, P. (1998). An improved factorial representation of
symbolic objects. Advances in Data Science and Classification, 397-402.
Giordani, P. and Kiers, H. A. L. (2006). A comparison of three methods for principal compo-
nent analysis of fuzzy interval data. Computational Statistics and Data Analysis, 51(1),
379-397.
Gioia, F. and Lauro, C. N. (2006). Principal component analysis on interval data. Computa-
tional Statistics, 21, 343-363.
Lauro N. C. and Palumbo F. (2000). Principal Component Analysis with interval data: a
symbolic data analysis approach. Computational Statistics, 15(1), 73-87.
Palumbo, F. and Lauro, N. C. (2003). A PCA for interval valued data based on midpoints and
26
radii. New developments in Psychometrics, 641-648.
Tipping, M. E. and Bishop, C. M. (1997). Probabilistic principal component analysis. Journal
of the Royal Statistical Society, Series B, 61, 611-622.
Wang, H., Guan, R. and Wu, J. (2012). CIPCA: complete-information-based principal compo-
nent analysis for interval-valued data. Neurocomputing, 86, 158-169.
Zuccolotto, P. (2011). Principal component analysis with interval imputed missing values. AStA
Advances in Statistical Analysis, 96(1), 1-23.
論文全文使用權限
校內
校內紙本論文立即公開
同意電子論文全文授權校園內公開
校內電子論文立即公開
校外
同意授權
校外電子論文立即公開

如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信