淡江大學覺生紀念圖書館 (TKU Library)
進階搜尋


下載電子全文限經由淡江IP使用) 
系統識別號 U0002-2907201015375300
中文論文名稱 Affymetrix晶片微陣列資料的加權分位數常規化法
英文論文名稱 Weighted Quantile Normalization for Affymetrix GeneChip Microarray Data
校院名稱 淡江大學
系所名稱(中) 數學學系碩士班
系所名稱(英) Department of Mathematics
學年度 98
學期 2
出版年 99
研究生中文姓名 賴凌漢
研究生英文姓名 Ling-Han Lai
學號 697190485
學位類別 碩士
語文別 中文
口試日期 2010-07-22
論文頁數 61頁
口試委員 指導教授-吳漢銘
委員-蘇家玉
委員-陳怡如
中文關鍵字 微陣列  前置處理  分位數常規化  顯著性分析 
英文關鍵字 microarray  pre-processing  quantile normalization  significance analysis of microarray. 
學科別分類 學科別自然科學數學
中文摘要 微陣列實驗是在近年來最熱門生物技術。藉由此高效率的技術可快速比較大量的基因表現,並可進一步了解基因和疾病的顯著性。微陣列實驗包含了許多的步驟,容易產生一些非生物上的變異,造成了不正確的分析解讀。為了增加分析微陣列結果的正確性,所以在資料的前置處理工作就變得十分重要。對於Affymetrix Oligonucleotide 微陣列的前置處理方法中,分位數常規化方法是最廣為使用的。在本研究中,我們使用主成分分析來提出加權分位數常規化法。本文使用Affymetrix 公司所提供的資料之HGU133 和GEO 網站中的數個實際資料,將RMA 和 GCRMA 所提的前置處理方法和加權分位數常規化法做比較。並利用Affycomp II 網站中的指標和基因差異表現分析來評估方法的優劣。分位數常規化方法和加權分位數常規化方法, 雖然以不同的出發點有所差異, 可是這二個方法在前置處理的能力上卻擁有許多相似之處。但若同組資料本身變異程度較大,在基因差異表現分析上略有所不同。
英文摘要 In recent years, the microarray experiment has become the most popular
biotechnology to study the gene expression. The expression levels of thousands
of genes are simultaneously measured to investigate the association of
certain treatments, diseases, and genes. In order to remove the impact of nonbiological variations and systematic bias presents in such high-throughput
data, the pre-processing is an essential and important step in microarray data
analysis. Among these, RMA (robust multiarray averaging) and GCRMA are
the most widely used pre-processing methods for Affymetrix GeneChip data.
Both methods use the quantile normalization for the normalization step. In
this study, we proposed a weighted quantile normalization using the principal
component analysis. The standard HGU133 dataset from Affymetrix and
the other 14 datasets from GEO website were employed to compare RMA,
GCRMA and their weighted versions. The evaluation was reported based
on the indices of Affycomp II and the significance analysis of microarrays
(SAM). The finding suggests the differential expressed genes found by the
weighted quantile normalization were slightly different with those obtained
from the classical method if the input data possesses large variations.
論文目次 英文摘要i
中文摘要ii
致謝詞iii
1 導論1
2 Affymetrix 基因晶片前置處理方法3
2.1 RMA方法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.1.1 背景雜訊修正. . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.1.2 常規化. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.1.3 整合數值. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2 GCRMA方法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3 加權分位數常規化方法7
3.1 加權分位數常規化方法. . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.2 利用主成分分析取得權重. . . . . . . . . . . . . . . . . . . . . . . . . . 9
4 資料說明12
4.1 資料(I):SPIKE-IN 資料. . . . . . . . . . . . . . . . . . . . . . . . . . 12
4.2 資料(II): 實際資料. . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
5 評估指標13
5.1 準確度. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
5.2 精確度. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
5.3 整體評估. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
6 分析結果說明16
6.1 SPIKE-IN 資料結果. . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
6.2 實際資料的結果. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
7 結論與討論21
參考文獻23
附錄24

表目錄
1 選取的資料, 詳細解說可參考GEO 網站, 表中的p 值為主成分分析和平
均的差異程度。. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2 評估指標. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3 四個方法在14個指標中的表現. . . . . . . . . . . . . . . . . . . . . . . 27

圖目錄
1 pm 或mm 值的矩陣, 其中P 為基因個數乘探針個數, N 為晶片個數。. . 3
2 左上方為原資料, 先對每行重新排序且算出排序後的每列平均數, 以原資
料中每行的排序位置回填平均值完成分位數常規化法(右下方矩陣)。. . . 5
3 在圖中, 綠色為主成分分析找出來的方向, 紅色為平均值的方向。由圖, 可
發現資料投影在主成分分析的方向上比投影在平均的方向上, 保留較大的
原資料變異。. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
4 HGU133 資料的實驗設計。. . . . . . . . . . . . . . . . . . . . . . . . 28
5 本研究之流程圖。. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
6 由MA 圖可以初步了解方法的表現。. . . . . . . . . . . . . . . . . . . 30
7 已知濃度下, 標定的log2表現量和測量的log2表現量作圖。理想情況下,
圖形斜率值應為1。. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
8 標定的對數化表現量比值和測量的對數化表現量比值作圖。理論上, 標定
的比值和測量的比值應相對應, 圖形斜率值為1。. . . . . . . . . . . . . . 32
9 同圖8, 觀察當濃度不大於2pm 時的表現。. . . . . . . . . . . . . . . . 33
10 此圖為ROC 曲線圖, X 軸: 偽陽性; Y 軸: 靈敏度。由圖中曲線下面積來
評估方法。. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
11 左圖: 將單一類別資料, 對加權分位數常規化的加權平均數減掉分位數常
規化的算術平均數作盒形圖。前二組為單一類別一般類型, 後二組為時間
序列的單一類別。右圖: 將左圖取對數作圖。. . . . . . . . . . . . . . . . 35
12 將二類別資料, 對加權分位數常規化的加權平均數減掉分位數常規化的算
術平均數作盒形圖。圖中分為二類別且具時間序列成對、二類別且具時間
序列不成對、二類別成對和二類別不成對。右圖: 將左圖取對數作圖。. . . 36
13 將多類別資料, 對加權分位數常規化的加權平均數減掉分位數常規化的算
術平均數作盒形圖。右圖: 將左圖取對數作圖。. . . . . . . . . . . . . . . 37
14 此圖為單一類別資料, (a) 將GDS2950 資料的盒形圖、權重圖、分位數常
規化後的盒形圖和加權分位數常規化後的盒形圖。(b) 前置處理後的基因
差異表現分析, 做出二個基因清單的文氏圖。c) 和(d) 同上圖(a)、(b), 資
料為GDS991。. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
15 此圖為單一類別且具時間序列資料, (a) GDS2110 資料的盒形圖、權重圖、
分位數常規化後的盒形圖和加權分位數常規化後的盒形圖。(b) 前置處理
後的基因差異表現分析, 做出二個基因清單的文氏圖。(c) 和(d) 同上圖
(a)、(b), 資料為GDS2688。. . . . . . . . . . . . . . . . . . . . . . . . 40
16 此圖為二類別且成對資料, (a) GDS2083 資料的盒形圖、權重圖、分位數
常規化後的盒形圖和加權分位數常規化後的盒形圖。(b) 前置處理後的基
因差異表現分析, 做出二個基因清單的文氏圖。(c) 和(d) 同上圖(a)、(b),
資料為GDS2778。. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
17 此圖為二類別且不成對資料, (a) GDS1251 資料的盒形圖、權重圖、分位
數常規化後的盒形圖和加權分位數常規化後的盒形圖。(b) 前置處理後的
基因差異表現分析, 做出二個基因清單的文氏圖。(c)和(d)同上圖(a)、(b),
資料為GDS1112。. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
18 此圖為二類別成對且具時間序列資料, (a) GDS2097 資料的盒形圖、權重
圖、分位數常規化後的盒形圖和加權分位數常規化後的盒形圖。(b) 前置
處理後的基因差異表現分析, 做出二個基因清單的文氏圖。(c) 和(d) 同
上圖(a)、(b), 資料為GDS2732。. . . . . . . . . . . . . . . . . . . . . 43
19 此圖為二類別不成對且具時間序列資料, (a) GDS2802 資料的盒形圖、權
重圖、分位數常規化後的盒形圖和加權分位數常規化後的盒形圖。(b) 前
置處理後的基因差異表現分析, 做出二個基因清單的文氏圖。(c) 和(d)
同上圖(a)、(b), 資料為GDS2852。. . . . . . . . . . . . . . . . . . . . 44
20 此圖為多類別資料, (a) GDS2809 資料的盒形圖、權重圖、分位數常規化
後的盒形圖和加權分位數常規化後的盒形圖。(b) 前置處理後的基因差異
表現分析, 做出二個基因清單的文氏圖。(c) 和(d) 同上圖(a)、(b), 資料
為GDS3211。. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
21 在GDS1112 資料中, 使用RMA 和wRMA 二個前置處理方法後, 在基
因差異表現分析的基因清單中, RMA 方法所選出的差異基因的註解。. . 46
22 在GDS1112 資料中, 使用RMA 和wRMA 二個前置處理方法後, 在基
因差異表現分析的基因清單中, wRMA 方法所選出的差異基因的註解。. . 47
23 承接上頁。. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
24 在GDS2110 資料中, 使用RMA 和wRMA 二個前置處理方法後, 在基
因差異表現分析的基因清單中, RMA 方法所選出的差異基因的註解。. . 49
25 在GDS2110 資料中, 使用RMA 和wRMA 二個前置處理方法後, 在基
因差異表現分析的基因清單中, RMA 方法所選出的差異基因的註解。. . 49
26 在GDS2688 資料中, 使用RMA 和wRMA 二個前置處理方法後, 在基
因差異表現分析的基因清單中, RMA 方法所選出的差異基因的註解。. . 50
27 在GDS2688 資料中, 使用RMA 和wRMA 二個前置處理方法後, 在基
因差異表現分析的基因清單中, wRMA 方法所選出的差異基因的註解。. . 51
28 在GDS2083 資料中, 使用RMA 和wRMA 二個前置處理方法後, 在基
因差異表現分析的基因清單中, RMA 方法所選出的差異基因的註解。. . 51
29 在GDS2083 資料中, 使用RMA 和wRMA 二個前置處理方法後, 在基
因差異表現分析的基因清單中, wRMA 方法所選出的差異基因的註解。. . 52
30 在GDS2778 資料中, 使用RMA 和wRMA 二個前置處理方法後, 在基
因差異表現分析的基因清單中, RMA 方法所選出的差異基因的註解。. . 52
31 在GDS2778 資料中, 使用RMA 和wRMA 二個前置處理方法後, 在基
因差異表現分析的基因清單中, wRMA 方法所選出的差異基因的註解。. . 53
32 在GDS1251 資料中, 使用RMA 和wRMA 二個前置處理方法後, 在基
因差異表現分析的基因清單中, RMA 方法所選出的差異基因的註解。. . 54
33 在GDS1251 資料中, 使用RMA 和wRMA 二個前置處理方法後, 在基
因差異表現分析的基因清單中, wRMA 方法所選出的差異基因的註解。. . 55
34 在GDS2097 資料中, 使用RMA 和wRMA 二個前置處理方法後, 在基
因差異表現分析的基因清單中, RMA 方法所選出的差異基因的註解。. . 55
35 在GDS2097 資料中, 使用RMA 和wRMA 二個前置處理方法後, 在基
因差異表現分析的基因清單中, wRMA 方法所選出的差異基因的註解。. . 56
36 在GDS2732 資料中, 使用RMA 和wRMA 二個前置處理方法後, 在基
因差異表現分析的基因清單中, RMA 方法所選出的差異基因的註解。. . 56
37 在GDS2732 資料中, 使用RMA 和wRMA 二個前置處理方法後, 在基
因差異表現分析的基因清單中, wRMA 方法所選出的差異基因的註解。. . 57
38 在GDS2802 資料中, 使用RMA 和wRMA 二個前置處理方法後, 在基
因差異表現分析的基因清單中, RMA 方法所選出的差異基因的註解。. . 58
39 在GDS2802 資料中, 使用RMA 和wRMA 二個前置處理方法後, 在基
因差異表現分析的基因清單中, wRMA 方法所選出的差異基因的註解。. . 58
40 在GDS2852 資料中, 使用RMA 和wRMA 二個前置處理方法後, 在基
因差異表現分析的基因清單中, RMA 方法所選出的差異基因的註解。. . 59
41 在GDS2852 資料中, 使用RMA 和wRMA 二個前置處理方法後, 在基
因差異表現分析的基因清單中, wRMA 方法所選出的差異基因的註解。. . 59
42 在GDS3211 資料中, 使用RMA 和wRMA 二個前置處理方法後, 在基
因差異表現分析的基因清單中, RMA 方法所選出的差異基因的註解。. . 60
43 在GDS3211 資料中, 使用RMA 和wRMA 二個前置處理方法後, 在基
因差異表現分析的基因清單中, wRMA 方法所選出的差異基因的註解。. . 60
44 在GDS2809 資料中, 使用RMA 和wRMA 二個前置處理方法後, 在基
因差異表現分析的基因清單中, RMA 方法所選出的差異基因的註解。. . 61
45 在GDS2809 資料中, 使用RMA 和wRMA 二個前置處理方法後, 在基
因差異表現分析的基因清單中, wRMA 方法所選出的差異基因的註解。. . 61
參考文獻 Affymetrix’s GeneChip http://www.affymetrix.com/estore/index.jsp
Bolstad, B., Irizarry, R., Strand, M. and Speed, T. (2003). A comparison of normalization
methods for high density oligonucleotide array data based on variance
and bias. Bioinformatics, 19(2), 185-193.
Cleveland W.S. (1979), Robust locally weighted regression and smoothing scatterplots.
Journal of the American Statistical Association, 74, 829-836.
Chu, G., Narasimhan, B., Tibshirani, R. & Tusher, V. (2002), Significance analysis
of microarrays (sam) software. Available: http://www-stat.stanford.edu/ tibs/SAM/
the Internet. Accessed 2003 July 16.
Cope, L.M., Irizarry, R.A., Jaffee, H.A., Wu, Z., and Speed, T.P. (2004). A benchmark
for Affymetrix GeneChip expression measures. Bioinformatics, 20(3),
323-31.
Hotelling H. (1933). Analysis of a complex of statistical variables into principal
components. J. Educational Psychol. 24, 441.
Irizarry, R., Hobbs, B., Collin, F., Beazer-Barclay, Y., Antonellis, K., Scherf, U.,
and Speed, T. (2003). Exploration, normalization, and summaries of high
density oligonucleotide array probe level data. Biostatistics, 4(2):249-64.
Irizarry, R., Wu, Z., and Jaffee, H.A. (2006). Comparison of Affymetrix GeneChip
expression measures. Bioinformatics 22, 789-794.
Tusher, V.G., Tibshirani, R., and Chu, G. (2001). Significance analysis of microarrays
applied to the ionizing radiation response. Proceedings of the National
Academy of Science, 98, 5116-5121.
Wu, Z. et al. (2004). A model-based background adjustment for oligonucleotide
expression arrays. Journal of the American Statistical Association, 99, 909-
917.
論文使用權限
  • 同意紙本無償授權給館內讀者為學術之目的重製使用,於2010-08-12公開。
  • 同意授權瀏覽/列印電子全文服務,於2010-08-12起公開。


  • 若您有任何疑問,請與我們聯絡!
    圖書館: 請來電 (02)2621-5656 轉 2281 或 來信