§ 瀏覽學位論文書目資料
  
系統識別號 U0002-0407201214044200
DOI 10.6846/TKU.2012.00148
論文名稱(中文) 以群集為基礎的切片逆迴歸法於區間型符號資料之維度縮減
論文名稱(英文) Cluster-based sliced inverse regression for dimension reduction of the interval-valued symbolic data
第三語言論文名稱
校院名稱 淡江大學
系所名稱(中文) 數學學系碩士班
系所名稱(英文) Department of Mathematics
外國學位學校名稱
外國學位學院名稱
外國學位研究所名稱
學年度 100
學期 2
出版年 101
研究生(中文) 陳業勛
研究生(英文) Ye-Shiun Chen
學號 699190251
學位類別 碩士
語言別 繁體中文
第二語言別
口試日期 2012-06-27
論文頁數 50頁
口試委員 指導教授 - 吳漢銘(hmwu@mail.tku.edu.tw)
委員 - 李百靈(129354@mail.tku.edu.tw)
委員 - 陳君厚(cchen@stat.sinica.edu.tw)
關鍵字(中) 資料視覺化
逆迴歸法
充份維度縮減法
符號型資料分析法
符號型主成份分析法
關鍵字(英) data visualization
inverse regression
sufficient dimension reduction
symbolic data analysis
symbolic principal component analysis
第三語言關鍵字
學科別分類
中文摘要
Li (1991)所提出的切片逆迴歸法(SIR),目的在找出有效的維度縮減方向來探索高維度資料的內在結構。針對單一反應變數逆迴歸問題,SIR 已發展並應用在各種資料型態上,例如: 存活資料、時間序列資料、函數型資料及縱向資料等等。本研究中,我們推展SIR方法到區間型符號資料。首先利用頂點法或中心法將區間資料做轉換,再應用SIR 於轉換後的資料上。模擬資料分析結果顯示,不同的切片策略會產生不同的維度縮減方向及呈現不同的低維度視覺化結果,因此找出合適的切片策略有助於正確地分析這類型高維度資料所隱含的結構與資訊。故我們進一步採用以群集為基礎的切片逆迴歸法來分析區間型符號資料,並和其它符號型維度縮減方法(例如: 符號型主成份分析法)相比較,評估它們在區別能力、低維度視覺化的表現。
英文摘要
Sliced inverse regression (SIR) was introduced by Li (1991) to find the effective dimension reduction directions for exploring the intrinsic structure of high-dimensional data. For univariate response regression, SIR has been extended and applied to different data types. Examples were the cases
of the survival data, the time series data, the functional data and the longitudinal data. This study intends to develop SIR for the interval-valued symbolic data. Firstly, the interval-valued data was transformed into the conventional data matrix using the vertices method or the centers method. Then the classical SIR algorithm was directly applied to the transformed data. The simulation results shown that using different slicing schemes
produced different projection directions and different lower-dimensional visualization. Therefore, a suitable slicing scheme is needed for correctly investigating the embedded structure and information of the high-dimensional
interval-valued symbolic data in the lower-dimensional plots. The results motivated us to adopt the clustered-based SIR to improve the implementation of the symbolic SIR. We compared and evaluated the results with those obtained
with several existing symbolic dimension reduction techniques (such as the symbolic principal component analysis) for discriminative and visualization
purposes.
第三語言摘要
論文目次
1 導論1
2 區間型符號資料之維度縮減3
2.1 頂點式主要成份分析法(V-PCA) . . . . . . . . . . . . . . . . . . 3
2.2 中心式主要成份分析法(C-PCA) . . . . . . . . . . . . . . . . . . 6
2.3 相關係數與貢獻度. . . . . . . . . . . . . . . . . . . . . . . . 7
2.3.1 相關係數. . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.3.2 貢獻度. . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
3 區間型符號資料之切片逆回歸法9
3.1 切片逆迴歸法. . . . . . . . . . . . . . . . . . . . . . . . . . 9
3.2 以群集為基礎的切片逆迴歸法(cluster-based SIR) . . . . . . . . . 10
3.3 頂點式切片逆迴歸法(V-SIR) . . . . . . . . . . . . . . . . . . . 12
3.4 中心式切片逆迴歸法(C-SIR) . . . . . . . . . . . . . . . . . . . 13
3.5 以群集為基礎的切片逆迴歸法於區間型符號資料之維度縮減. . . . . . 13
4 以群集為基礎的切片逆迴歸法模擬研究14
4.1 Li model 6.1, 6.2 和6.3 . . . . . . . . . . . . . . . . . . . . 14
4.2 Kuentz model (7) . . . . . . . . . . . . . . . . . . . . . . . 15
4.3 Kuentz model (8) . . . . . . . . . . . . . . . . . . . . . . . 16
5 區間型符號之資料維度縮減模擬分析17
6 區間型符號資料之維度縮減實例分析19
6.1 Iris data . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
6.2 Finance data . . . . . . . . . . . . . . . . . . . . . . . . . 21
6.3 Face data . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
7 結論與討論24
參考文獻25
附錄29
A : 表. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
B : 圖形. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
表目錄
1 針對Li model (6.1) 模擬資料, 採用傳統及群集切片逆迴歸法, 在不同
切片方式之下的充分維度縮減方向估計, 重覆模擬100 次, 計算方向估
計之平均及標準差(真實方向為(1,1,1,1,0), H1=4, H2=3)。. . . . . 29
2 針對Li model (6.2) 模擬資料, 採用傳統及群集切片逆迴歸法, 以不
同切片方式之下的充分維度縮減方向估計, 重覆模擬100 次, 計算典
型相關係數之平均及標準差(真實方向為(1,0,. . .,0) 和(0,1,0,. . .,0),
H1=5, H2=3)。. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3 針對Li model (6.3) 模擬資料, 採用傳統及群集切片逆迴歸法, 以不
同切片方式之下的充分維度縮減方向估計, 重覆模擬100 次, 計算典
型相關係數之平均及標準差(真實方向為(1,0,. . .,0) 和(0,1,0,. . .,0),
H1=4, H2=3)。. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4 針對Kuentz model (7) 模擬資料, 採用傳統及群集切片逆迴歸法, 在
不同切片方式之下的充分維度縮減方向估計, 重覆模擬100 次, 計算方
向估計之平均及標準差(真實方向為(1/(√2), −1/(√2), 0, . . . , 0), H1=4, H2=4)。31
5 針對Kuentz model (8) 模擬資料, 採用傳統及群集切片逆迴歸法, 以不
同切片方式之下的充分維度縮減方向估計, 重覆模擬100 次, 計算典型
相關係數之平均及標準差(真實方向為(1/(√2), −1/(√2), 0, 0, 0)和(0, 0, 0, 1/(√2), −1/(√2),
H1=2, H2=5)。. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
6 針對Li model (6.1) 模擬資料轉換後之區間型資料, 採用傳統及群集
切片逆迴歸法, 在不同切片方式之下的充分維度縮減方向估計, 重覆模
擬100 次, 計算方向估計之平均及標準差(真實方向為(1,1,1,1,0))。. 33
7 針對Li model (6.2) 模擬資料轉換後之區間型資料, 採用傳統及群集
切片逆迴歸法, 以不同切片方式之下的充分維度縮減方向估計, 重覆模
擬100 次, 計算典型相關係數之平均及標準差(真實方向為(1,0,. . .,0)
和(0,1,0,. . .,0))。. . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
8 針對Li model (6.3) 模擬資料轉換後之區間型資料, 採用傳統及群集
切片逆迴歸法, 以不同切片方式之下的充分維度縮減方向估計, 重覆模
擬100 次, 計算典型相關係數之平均及標準差(真實方向為(1,0,. . .,0)
和(0,1,0,. . .,0))。. . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
9 針對Kuentz model (7) 模擬資料轉換後之區間型資料, 採用傳統及群
集切片逆迴歸法, 在不同切片方式之下的充分維度縮減方向估計, 重覆
模擬100次, 計算方向估計之平均及標準差(真實方向為(1/(√2), −1/(√2), 0, . . . , 0))。36
10 針對Kuentz model (8) 模擬資料轉換後之區間型資料, 採用傳統及群
集切片逆迴歸法, 以不同切片方式之下的充分維度縮減方向估計, 重覆
模擬100次, 計算典型相關係數之平均及標準差(真實方向為(1/(√2), −1/(√2), 0, 0, 0)
和(0, 0, 0, 1/(√2), −1/(√2)))。. . . . . . . . . . . . . . . . . . . . . . . . . . 37
11 將Iris data 每個變數在每個品種中取最大值和最小值, 形成的區間型
資料(記為Iris-D1)。. . . . . . . . . . . . . . . . . . . . . . . . . . 38
12 將Iris data 之每一品種, 以群數為3 進行K-means 分群而形成的區
間型資料(記為Iris-D2)。. . . . . . . . . . . . . . . . . . . . . . . 38
13 將Iris data 之每一品種, 以群數為5 進行K-means 分群而形成的區
間型資料(記為Iris-D3)。. . . . . . . . . . . . . . . . . . . . . . . 39
14 以Iris-D3 為資料做V-PCA 求得(V-PCν,Y) 的相關性。. . . . . . 40
15 Finance data (Vu, Vu and Foo, 2003) . . . . . . . . . . . . . . . . 40
16 Face dataset (Leroy, Chouakria, Herlin and Diday, 1996) . . . . . 41
17 對face dataset 區間型資料用V-PCA 方法, 第ν 個有效維度縮減方
向與變數xj 的相關係數(j = 1, . . . , 6)。. . . . . . . . . . . . . . . . 42
18 對face dataset 區間型資料用V-SIR 方法下, 第ν 個有效維度縮減方
向與變數xj 的相關係數(j = 1, . . . , 6)。. . . . . . . . . . . . . . . . 42

圖目錄
1 本研究中, 區間型資料的維度縮減流程圖。. . . . . . . . . . . . . . . 43
2 PCA 和V-PCA 方法對於鳶尾花資料降維結果之視覺化, H 為總分群
數。. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3 對(a) iris-D2 (b) iris-D3 兩種區間型鳶尾花資料做V-SIR (最上列)
C-SIR (中間列) 及cbSIR (最下列) 三種降維方法視覺化。. . . . . . 45
4 C-PCA for finance data, (a) 在Co、JC、AC、MC、AB 等五個變數
下, faniance data 內14 組區間型資料做C-PCA 的結果(b) 在Co、
JC、AC、MC、AB 等五個變數下, faniance data 內去除快速消費類
(w1) 的13 組區間型資料做C-PCA 的結果(c) 為將出版類從第二群
轉為第一群其圖示結果(d) 為將製藥類、消費品類和其他類通通歸為
第二群其圖示結果. . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5 使用V-PCA 、V-SIR 、C-SIR 及V-cbSIR 四種方法對finance data
降維後之視覺化結果。. . . . . . . . . . . . . . . . . . . . . . . . . 47
6 人臉辨識採用之特徵變數. . . . . . . . . . . . . . . . . . . . . . . . 48
7 針對face data, 以不同貢獻度觀察V-PCA 之二維視覺化的結果。. . 48
8 針對face data, 以不同貢獻度觀察V-SIR 之二維視覺化的結果。. . . 49
9 針對face data, 以不同貢獻度觀察C-SIR 之二維視覺化的結果。. . . 49
10 針對face data, 以不同貢獻度觀察V-cbSIR 之二維視覺化的結果。. . 50
參考文獻
Becker, C., and Fried, R. (2003), “Sliced Inverse Regression for High-dimensional
Time Series,” Expolratory DataAnalsis in Empirical Research: Proceedings
of the 25th Annual Conference of the Gesellschaft fur Klassi ckation, University
of Munich, 3–11.
Billard, L., and Diday, E. (2006), “Symbolic Data Analysis Conceptual Statistics
and Data Mining,” Wiley Series in Computational Statistics, 161–165.
Cazes, P., Chouakria, A., Diday, E., and Schecktman, Y. (1997), “Extension
de l’analyse en Composantes Principales des donnes de Type Intervalle,”
Revue Statistique Applique, 45, 5–24.
Chouakria, A., Diday, E., and Cazes, P. (1998), “An Improved Factorial Representation
of Symbolic Objects,” In: Advances in Data Science and Classi-
 cation (eds. A. Rizzi, M. Vichi and H.-H. Bock), Springer-Verlag, Rome,
397–402.
Chouakria, A., Billard, L., and Diday, E. (2011), “Principal Components for
Interval-Valued Observations,” Statistical Analysis and Data Mining, 4(2),
229–246.
Ferr’e, L., and Yao, A. F. (2003), “Functional Sliced Inverse Regression analysis,”
Statistics, 37, 475–488.
Fisher, R. A. (1936), “The Use of Multiple Measurements in Taxonomic Problems,”
Annals of Human Genetics, 7(2),179–188.
Ichino, M. (1988), “General Metrics for Mixed Features — The Cartesian Space
Theory for Pattern Recognition,” Proceedings of the IEEE International
Conference on Systems, Man and Cybernetics, 1, 494–497.
Ichino, M., and Yaguchi, H. (1994), “Generalized Minkowski Metrics for Mixed
Feature Type Data Analysis,” IEEE Transactions on Systems, Man and
Cybernetics, 24, 698–708.
Lauro, C. N., and Palumbo, F. (2000), “Principal Component Analysis of Interval
Data: A Symbolic Analysis Approach,” Computational Statistics, 15,
73–87.
Lauro, C. N., and Palumbo, F. (2003), “Interval Arithmetic for The Evaluation
of Imprecise Data Effects in Least Squares Linear Regression,” Statistica
Applicata, 3.
Leroy, B., Chouakria, A., Herlin, I. and Diday, E. (1996), “Approche G’eom’etrique
Et Classification Pour La Reconnaissance de Visage,” Reconnaissance des
Forms et Intelligence Arti celle, INRIA and IRISA and CNRS, France,
548–557.
Li, K. C. (1991), “Sliced Inverse Regression for Dimension Reduction,” Journal
of The American Statistical Association, 86, 316–342.
Li, K. C., Wang, J. L., and Chen, C. H. (1999), “Dimension Reduction for
Censored Regression Data,” Annals of Statistics, 27(1), 1–23.
Li, L., and Yin, X. (2009), “Longitudinal Data Analysis Using Sufficient Dimension
Reduction Method,” Computational Statistics and Data Analysis,
53(12), 4106–4115.
Kuentz, V., and Saracco, J. (2010), “Cluster–based Sliced Inverse Regression,”
Journal of the Korean Statistical Society, 39(2), 251–267.
Nagabhushan, P., Gowda, K. C., and Diday, E. (1995), “Dimensionality Reduction
of Symbolic Data,” Pattern Recognition Letters, 16, 219–233.
Vu, T.H.T, Vu, T.M.T., and Foo, R.W.S. (2003), “Analyse de Donn’ees Symboliques
sur des Projects Markering,” Technical Report, CEREMADE, Dauphine.Universit e Paris IX
Wu, H.M., and Lu, H.H.-S. (2004), “Supervised Mnotion Segmentation by
Sqatial-frequential Analysis and Dynamic Sliced Inverse Regression,” Statistica
Sinica, 14, 413–430.
Wu, H.M., and Lu, H.H.-S. (2007), “Iterative Sliced Inverse Regression for Segmentation
of Ultrasound and MR Images,” Pattern Recognition, 40(12),
3492–3502.
Zuccolotto, P. (2011), “Principal Component Analysis with Interval Imputed
Missing Values,” AStA Advances in Statistical Analysis, 96(1), 1–23.
論文全文使用權限
校內
校內紙本論文立即公開
同意電子論文全文授權校園內公開
校內電子論文立即公開
校外
同意授權
校外電子論文立即公開

如有問題,歡迎洽詢!
圖書館數位資訊組 (02)2621-5656 轉 2487 或 來信